KR101543992B1 - 언어-내 통계적 머신 번역 - Google Patents
언어-내 통계적 머신 번역 Download PDFInfo
- Publication number
- KR101543992B1 KR101543992B1 KR1020107021217A KR20107021217A KR101543992B1 KR 101543992 B1 KR101543992 B1 KR 101543992B1 KR 1020107021217 A KR1020107021217 A KR 1020107021217A KR 20107021217 A KR20107021217 A KR 20107021217A KR 101543992 B1 KR101543992 B1 KR 101543992B1
- Authority
- KR
- South Korea
- Prior art keywords
- query
- language
- list
- textual
- model
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
소스 문구과 타겟 문구의 쌍들을 포함하는 훈련 데이터가 제공될 수 있다. 이 쌍들은 언어-내 통계적 머신 번역 모델을 훈련하는데 사용될 수 있으며, 여기서 언어-내 통계적 머신 번역 모델은, 인간 언어의 텍스트의 입력 문구가 주어지면, 상기 입력 문구와 상기 인간 언어의 입력 문구의 가능한 번역물과의 의미적으로 등가의 확률을 계산할 수 있다. 통계적 머신 번역 모델은 쿼리와 목록 간을 번역하는데 이용될 수 있다. 쿼리는 검색 엔진에 제출된 인간 언어의 텍스트 스트링일 수 있다. 목록 스트링은 쿼리 스트링과 매치하는 것을 찾는 검색 엔진에 의해 검색될 실세계 엔티티들의 공식 명칭의 텍스트 스트링일 수 있다.
Description
정보를 검색하고 탐색하기 위한 네트워크 기반 검색 서비스, 인터넷 검색 엔진, 음성 검색, 국부적 검색(local search), 및 각종 다른 기술들은 사람들이 정보를 찾는데 도움을 주기 위한 목적으로 점차 중요해지고 있다. 음성 검색은 음성 인식과 정보 탐색의 결합을 필요로 한다. 발음된 문구는 자동으로 텍스트로서 인식되며, 그 텍스트는 쿼리로서 검색 서비스에 제출된다. 예를 들어, 어떤 사람은 음성 검색 애플리케이션을 내장한 이동 전화기를 이용하여 이동 장치에 음식점의 명칭을 말함으로써 음식점을 찾을 수 있으며, 이동 장치는 말한 음식점 명칭을 인식하고(즉, 이를 텍스트로 변환하고) 음식점 명칭의 텍스트를 기업 디렉토리와 같은 원격 검색 서비스에 전송할 수 있다. 국부적 검색은 업소들, 회사들, 단체들, 또는 다른 엔티티들의 목록(listings)을 사용하여 이동 장치가 이와 같은 것들을 찾을 수 있게 한 특수한 검색 사례이다. 아래와 같은 예를 고려해보자.
사용자는 디렉토리에 "Kung Ho Cuisine of China"라고 목록에 기입된 사업에 관한 정보를 찾는데 관심을 가질 수 있다. 그러나, 사용자는 쿼리를 "Kung Ho Restaurant"라고 공식화한다. 현재, 이러한 목록 검색은 쿼리 부분과 목록 형태들 간의 통계적 유사성들(statistical parallels)을 이용하지 못할 것이다. 더욱이, 오류 목록, 예를 들어, "Kung Ho Grocery"가 관련성 있는 매치라고 되돌아올 수 있다.
아래에는 통계적 언어-내 머신 번역에 관련한 기술과, 이 기술의 음성 인식, 검색, 및 다른 기술에의 적용예가 기술된다.
다음의 요약은 아래의 상세한 설명에서 기술된 일부 개념을 소개할 뿐이다. 이 요약은 포괄적인 내용은 아니며 또한 본 명세서의 끝 부분에서 제시된 특허청구범위에서 기술된 청구된 주제의 범주를 서술하고자 한 것은 아니다.
훈련 데이터가 제공될 수 있다. 이 훈련 데이터는 소스 문구와 타겟 문구의 쌍을 포함할 수 있다. 이 쌍들은 언어-내 통계적 머신 번역 모델을 훈련하는데 사용될 수 있으며, 여기서 언어-내 통계적 머신번역 모델은, 인간 언어의 텍스트의 입력 문구가 주어질 때, 인간 언어의 입력 문구의 가능한 번역물에 대한 입력 문구의 의미적 등가(semantic equivalence)의 확률을 계산할 수 있다. 통계적 머신 번역 모델은 쿼리와 목록 간을 번역하는데 사용될 수 있다. 쿼리는 검색 엔진에 제출된 인간 언어에서의 텍스트 스트링일 수 있다. 목록 스트링은 쿼리 스트링과 매치하는 것을 찾기 위해 검색 엔진에 의해 검색될 실세계 엔티티들의 공식 명칭의 텍스트 스트링일 수 있다.
첨부 도면과 함께 고려된 다음의 상세한 설명을 참조하여 많은 부수적인 특징들이 아래에서 설명될 것이다.
본 설명은 첨부 도면의 견지에서 읽어본 다음의 상세한 설명으로부터 더 잘 이해될 것이며, 도면에서 동일한 참조부호는 다음의 설명에서 동일한 요소를 지정하는데 사용된다.
도 1은 언어-내 통계적 머신 번역을 위한 일반적인 프로세스를 도시한다.
도 2는 n-그램 기반 모델을 구축하기 위한 프로세스를 도시한다.
도 3은 통계적 번역 모델을 이용하여 검색 시스템 및/또는 음성 인식 시스템의 언어 모델을 향상시키는 구성을 도시한다.
도 1은 언어-내 통계적 머신 번역을 위한 일반적인 프로세스를 도시한다.
도 2는 n-그램 기반 모델을 구축하기 위한 프로세스를 도시한다.
도 3은 통계적 번역 모델을 이용하여 검색 시스템 및/또는 음성 인식 시스템의 언어 모델을 향상시키는 구성을 도시한다.
개요
아래의 설명은 동일한 인간 언어의 문장들 또는 문구들 간에 번역하는 통계적 머신 번역 모델을 사용하는 것과 관련한 실시예들을 커버한다. 이 설명은 비교적 작은 집합의 훈련 문장들 또는 문구들이 통계적 번역 모델을 훈련하는데 어떻게 사용되는지를 설명하는 것으로 시작한다. 그 다음, 언어-내 머신 번역 모델의 응용예가 설명되며, 이 응용예는 검색, 자동 음성 인식(automatic speech recognition: ASR), 및 음성 인식 결과의 디스플레이에의 응용예를 포함한다.
언어내
통계적 머신 번역 모델(
INTRALANGUAGE
STATISTICAL
MACHINE
TRANSLATION
MODEL
)
통계적 모델들은 문장들(sentences)을 한 언어에서 다른 언어로 번역하는데 사용되어 왔다. 그러나, 이 모델들은 동일 언어의 문구들(phrases) 또는 문장들 간에 번역하는데 훈련되거나 사용되지 않았다. 즉, 통계적 모델링은 이전에 영어의 문구를, 예를 들어, 역시 영어 내에서 의미적으로 유사한 다른 문구로 번역하는데 사용되지 않았다.
통계적 번역 모델은 쿼리 스트링과 이에 대응하는 디렉토리 목록과 같은 유사 문구들일 수 있는 어떤 텍스트 샘플을 일반화한 것이다. 몇 가지 형태의 통계적 번역 모델은 타겟 문장 또는 문구가 소스 문장 또는 문구의 번역물이라는 확률을 제공하며, 이 확률은 훈련 텍스트로부터 유도된 통계적 패턴을 반영한다. 사실상, 모델은 훈련 문장의 통계적 측정치로부터 반영된 특징 또는 추세의 확률적 일반화이다. 본 설명의 전체에서, "문장"과 "문구"라는 용어는 비교적 짧은 배열의 단어들을 치환가능하게 지칭하는데 사용될 것임을 주목하자. 사업의 공식 및 비공식 명칭, 사용자에 의해 입력된 쿼리 스트링, 문법적 문장, 절 등은 문장 또는 문구의 예이다. 또한 본 설명은 문구 기반 검색(특히 음성 및/또는 지리적으로 국한된 검색)에 적용되는 것으로 언어-내 통계적 머신 번역을 기술하지만, 그 개념은 검색 응용예로 국한되지 않는다는 것을 알아야 한다. 더욱이, 짧은 구의 검색 목록은 제품 검색, 직업 검색 등을 포함하는 국부적 검색 이외에 다른 형태의 검색에도 적용가능하다.
도 1은 언어-내 통계적 머신 번역을 위한 개괄적인 프로세스를 도시한다. 처음에, 통계적 머신 번역 모델은 훈련(100)된다. 훈련(100)은 나중에 상세히 설명될 것이다. 훈련(100)은 각종 소스로부터 올 수 있는 훈련 데이터의 샘플을 이용하여 수행된다. 훈련 데이터는 동일한 인간 언어 내에서 유사한 (쌍으로 된) 문구들을 포함할 것이다. 훈련(100)은 문구의 후보 번역물들의 확률 또는 개연성을 계산하는데 사용될 수 있는 통계치(예를 들어, n-gram)를 번역 모델에 알려준다. n-gram 기반 모델의 특정한 훈련(100)은 아래에서 기술될 것이다.
모델이 훈련(100)된 후, 모델은 소스 문구를 타겟 문구로 번역(102)하는데 사용된다. 번역(102)은 소스 문구에서 시작하는 단계와 의미적으로 유사한 또는 대등한 타겟 문구를 획득하는 단계를 포함한다. 예를 들어, "Kung Ho Cuisine of China"라는 소스 문구는 "Kung Ho Chinese Restaurant" 또는 "Kung Ho Restaurant" 라는 타겟 문구로 변역될 수 있다. 다른 형태의 후보 타겟 문구들이 획득된다. 통계적 번역 모델은 하나 이상의 가장 유망한 후보 타겟 문구를 찾는데 사용된다. 다음의 음성 기반 검색의 개요와 이것이 어떻게 언어-내 머신 번역에 관련하는지를 고려해보자.
음성 검색 시스템은 두 컴포넌트, 즉, 음성 인식 컴포넌트 및 정보 탐색(검색) 컴포넌트를 포함할 수 있다. 말한 발성음 o는 자동 음성 인식(ASR)을 이용하여 텍스트 쿼리 q로, 즉, 아래와 같이 변환된다.
여기서, p(o│q) 및 p(q)는 각각 음향 모델 및 언어 모델(LM)을 나타낸다. 통계적 LM, 예를 들어, n-gram 모델은 종종 사용자가 말할 수 있는 유연성을 부여하는데 사용된다. 즉, 이 모델들은 각종의 말들이 ASR 컴포넌트에 의해 인식되게 해준다. 그 다음, 최적 (또는 n-best) q는 검색 엔진에 전달되어 가장 관련성 있는 문서 d를, 즉, 아래와 같이 탐색한다.
국부적 검색의 문맥에서, 문서 d는 전형적으로 짧은, 예를 들어, "Kung Ho Cuisine of China"라는 사업 목록(사업, 단체, 또는 다른 엔티티의 명칭)의 형태일 수 있다.
이러한 음성 기반 검색 체계의 경우, 목록 및 쿼리는 둘 다 비교적 짧기 때문에 2개국어 번역 훈련에서 발견된 "문장 쌍들(sentence pairs)"과 유사한 쌍으로서 취급된다. 언어-내 번역에 적합한 2개국어 통계적 번역 모델은 원래 형태의 목록을 자동으로 그의 쿼리 형태(즉, 목록을 검색할 때 사용자가 입력할 것으로 예상될 수 있는 형태)로 변환하는데 사용될 수 있으며, 나아가 음성 검색, 문법 체크, 또는 다른 응용을 위해 더 강건한 LM들을 구축하는 데에 사용될 수 있다. 편의상, 통계적 번역 모델은 매칭 목록들을 반드시 습득할 필요없이 소수의 변환한 또는 인위적으로 생성한 쿼리를 이용하여 훈련될 수 있다. 다양한 형태의 통계적 모델이 머신 번역에 사용될 수 있지만, n-gram 기반 모델이 다음에 기술될 것이다.
비록 쿼리 문구 및 그의 의도된 목록 문구는 형태가 다를 수 있을지라도, 통상 두 문구들 사이에는 단어 수준에서 의미적 대응성(semantic correspondence)이 있다. 다시 말해서, 쿼리 내 단어들은 목록 내 단어들 또는 공백 단어(null word)에 맵핑될 수 있으며, 그 반대로도 가능하다. 머신 번역 접근법은 목록의 가능한 쿼리 형태를 예측하고, 그런 다음 예측된 쿼리 형태를 활용하여 언어 모델링을 개선하는데 사용될 수 있다. 특히, 다음에 설명되는 바와 같이, n-gram은 목록 및 쿼리의 결합(조건부) 확률(joint (conditional) probability)을 모델링하는 단어 쌍에 대해 사용될 수 있다.
도 2는 n-gram 기반 모델을 구축하기 위한 프로세스를 도시한다. 동일한 인간 언어에서 한 쌍의 소스 및 타겟 문장들이 수신된다(120). 소스 및 타겟 문장들은 두 문장들 간의 편집 거리를 계산함으로써 정렬된다(122). 그 다음, 정렬된 문장의 단어들 및/또는 문구들이 쌍으로 구성되고(124) 의미적 단위로 취급된다. 그 다음, 쌍의 구성은 의미적으로/문자 그대로 유사한/대등한 단어들 또는 문구들을 찾음으로써 형성될 수 있다. 그런 다음, 쌍의 구성은 n-gram 모델을 훈련(126)시키는데 사용된다. 이 프로세스의 단계들은 상이한 소스 및 타겟 문장들에 대해 반복될 수 있다. 어떤 응용예에서는 소수 집합의 훈련 문장들이면 충분할 수 있지만, 더 많은 훈련 데이터를 사용하면 더 강력한 모델을 생성할 것이다. 정렬과 n-gram 모델은 반복적으로 갱신되고 최우도 의미(maximum likelihood sense)로 정제(refine)될 수 있음을 알아야 한다.
이제, n-gram 기반 모델을 생성하는 세부 내용이 기술될 것이다. n-gram 기반 모델을 훈련(100)하기 위하여, 초기의 훈련 데이터가 제공된다. 이 데이터는 유사한 텍스트(d, q)의 보디일 수 있으며, 여기서 목록 d 및 쿼리 q는 각각 소스 및 타겟 문장들로서 역할을 한다. 문장 d 및 q는 단조롭게 정렬되는데, 필요하다면, 그 정렬에서 발생하는 삽입 또는 삭제를 고려하여 공백 단어가 추가된다. 단조로운 정렬은 a라고 표시될 것이다. 또 다른 실시예에서, 단조롭지 않은 정렬이 사용될 수 있음을 알아야 한다.
일단 정렬되면, d 및 q로부터의 단어들의 순서 쌍이 생성되며, 이것은 (d, q, a) = ((d1, q1), (d2, q2), ..., (dL, qL))로 표시되며, 여기서 각각의 (di, qi)는 단일의 의미적 단위로서 취급된다. 필요하다면, 연속하는 단어 쌍들이 합쳐져서 문구 쌍들을 형성할 수 있다.
그 다음, 단어 쌍들의 순서는 n-gram 모델을 훈련하는데 사용될 수 있다. 결과적으로, 정렬된 문장 쌍의 확률은 다음과 같이 계산된다.
여기서, M은 단조로운 조건을 나타낸다. 초기 정렬 a는 d와 q 간의 레빈스타인 거리(Levenshtein distance)를 이용하여 계산될 수 있다. 이 정렬과 n-gram 모델의 파라미터는 최우도 의미로 갱신될 수 있다. 재정렬은, 예를 들어, 쌍을 구성하는 빈도수에 따라서 이루어질 수 있다.
n-gram 모델이 훈련되면, 목록-대-쿼리 번역이 수행될 수 있다. 목록 형태 d가 주어지고, (나중에 설명되는 디코더로부터) 쿼리 형태 q가 주어지면, 쿼리 형태가 검색되어 가장 높은 조건부 확률을 갖는 쿼리 형태를 찾는다.
여기서, p(d, q, a)는 수학식 3을 이용하여 평가된다.
번역은 유니그램에 의해 모델링된 단어 수준의 의미적 대응성을 이용할 뿐 아니라 고차 n-gram을 이용함으로써 단어 문맥(context)을 고려하기도 한다. 최적 또는 n-best 쿼리 형태는, Russell과 Norvig에 의해 Artificial Intelligence : A Modern Approach(Prentice Hall, second edition, 2003)에서 기술된, 최적 우선 탐색 알고리즘(best-first search algorithm)을 적용함으로써 효율적으로 검색될 수 있다. 이러한 형태의 검색을 이용하면, 가지치기 기술을 계산적인 복잡성을 줄이는데 적용될 수 있다. 음성 인식을 위한 언어 모델(LM)로 되돌아가면, 일단 목록에 대해 n-best 쿼리 형태가 구해지면, 이들은 LM 추정을 위한 훈련 문장으로서 사용될 수 있다.
고려할 두 가지 상세 구현 내용이 있다. 첫째, d에서 공백 단어를 사용하면 디코드 시간에서 잠재적 문제가 일어나며, 즉, 소스 문장의 어떤 위치에서 공백이 존재 또는 부재할 수 있기 때문에 검색 공간이 상당히 확장된다. 이 문제를 방지하기 위하여, qi의 값들의 의미적 단위로서 (di = null, qi)의 사용을 제거하는 것이 바람직하다. 특히, 훈련시, (di = null, qi)는 문구들, qi -1qi 또는 qiqi +1, 중 어떤 문구가 훈련 데이터에서 더 많이 발생하는지에 따라서 그의 선행 또는 후행 의미적 단위와 합쳐질 수 있다. 그러면, (di +1, qi -1qi) 또는 (di +1, qiqi +1)은 단일의 의미적 단위로 취급될 수 있다. 디코드 시간에서, 의미적 단위들 (di -1, qi -1qi) 또는 (di+1, qiqi +1)을 사용하는 것은 소스 문장 내에 공백(null)을 추가하는 것과 등가이므로, 공백은 명시적으로 d에 삽입되지 않는다.
두 번째 상세 구현 내용은 d 내의 OOV 단어들(out-of-vocabulary words)에 관한 것이다. OOV가 발생할 때, 어떤 qi 값에 대해 p(di = OOV, qi) = 0이기 때문에, 어떤 쿼리 형태도 생성하기가 가능하지 않을 수 있다. 그러한 경우를 처리하기 위하여, di = OOV 일 때마다, 양(positive)의 확률이 유니그램(di, qi = di)에 할당될 수 있다. 이것은, 훈련 데이터에서 찾을 수 없다면, 목록 단어가 그 자체로 번역된다는 것을 의미한다.
정렬이 단조롭지 않은 실시예들 역시 가능하다는 것을 주목하여야 한다. 더욱이, 재순서화(re-ordering) 전략이 사용될 수 있다. 이것은 단조로운 정렬이 적용되기 전에 q의 순서를 유지하면서 d를 재순서화함으로써 구현될 수 있다. 번역 모델을 훈련할 때, 소스 형태로 단어들을 재순서화하는 가장 좋은 방식은 결과 결합 n-gram 모델 가능성(resulting joint n-gram model likelihood)을 계산함으로써 결정된다. 원래의 순서를 시프트한 순서만이 고려되며, 이러한 순서를 위해 최대 엔트로피 분류기(maximum entropy classifier)가 구축되며, 여기서 분류기의 입력은 소스 형태이며, 그 출력은 순서이다. 번역하기 전에, 이 분류기가 적용되어 소스 형태를 재순서화한다.
언어 내 통계적 번역 모델의 응용
도 3은 통계적 번역 모델을 이용하여 검색 시스템 및/또는 음성 인식 시스템의 언어 모델을 개선하는 구성을 도시한다. 검색 엔진(152)은 목록(154), 예를 들어, 사업 목록을 검색하도록 구성된다. 검색 엔진(152)은 사용자에 의해 생성되어 검색 엔진(152)에 제출된 텍스트 쿼리 또는 변환된 발성 쿼리(156)를 수신한다. 대응하는 관련 목록(158)이 검색 엔진(152)에 의해 탐색된다. 훈련 쌍은 또한 TF-IDF(term frequency-inverse document frequency)를 이용하여 알고리즘적으로 획득될 수 있다.
텍스트 또는 변환된 쿼리(156) 및 대응하는 검색 엔진에서 탐색된 목록(158)은 n-gram 기반 모델 또는 다른 형태의 모델일 수 있는 통계적 번역 모델(162)을 훈련하는 훈련 컴포넌트(160)에 전달된다. 전술한 바와 같이, 훈련 컴포넌트(160)는 소스-타겟 쌍의 변환된 쿼리(156) 및 목록(158)을 통해 반복한다. n-gram 기반 모델의 경우, (소스, 타겟) 쌍이 주어지면, 편집 거리를 계산함으로써 소스 형태와 타겟 형태 사이에서 초기의 단조로운 정렬이 이루어진다. 정렬이 이루어지면, 훈련 컴포넌트(160)는 단어 수준 쌍을 찾고 단어 수준 쌍을 기반으로 하여 n-gram 번역 모델(162)을 구축한다. 번역 모델(162)의 정렬 및 n-gram 모델 파라미터는 반복적으로 정제되어서 번역 모델(162)을 향상시킨다. 더욱이, 훈련은 언어-내 번역으로 가능한 것과 같이, 단어가 자신으로 번역될 수 있다고 가정하는 백오프 전략을 구현할 수 있다. 다시 말해서, 정렬된 단위 WORD-WORD는 양의 확률을 가질 것이며, 여기서 WORD는 단어 또는 문구일 수 있다.
번역 모듈(164)은 번역 모델(162)을 사용하여 디코드된 후보들(잠재 번역물들)을 테스트한다. 번역 모델(162) 및 소스 형태가 훈련되면, 최적 우선 탐색 알고리즘은 최고 n-best 타겟 형태(번역 모델(162)에 따라 최고의 확률을 갖는 n 개의 디코드된 타겟 형태들)를 획득하는데 사용될 수 있다. 각 타겟 형태의 가중치는 번역 모델에 의해 생성된 p(타겟 소스)에 의해 결정된다. 가망 없는 단어 수준 쌍은 가지치기하여 번역 속도를 높일 수 있다.
번역 모델(162) 및 번역 모듈(164)이 주어지면, 후속 검색은 다음과 같이 개선될 수 있다. 사용자의 쿼리 q 및 목록 d가 검색 엔진(152)에 의해 발견되면, 목록 d의 번역된 쿼리 형태 x 는 목록 d의 사용자 쿼리와의 관련성을 측정할 때 고려된다. s(_,_)를 함수 또는 관련성(또는 유사성)의 함수 또는 측정치라 하면, 관련성의 측정치는 일 수 있다. 대안으로, 관련성은 s(q, d) = p(q,d)의 경우가 되는 번역 확률로부터 직접 측정될 수 있다. 일 실시예에서, 만일 잠재적 번역물의 유사도 측정치가 특정 임계치보다 낮으면 그 잠재 번역물은 걸러질 수 있다.
더욱이, 전술한 바와 같이 검색을 개선할 수 있을 뿐만 아니라 언어-내 번역을 이용하여 언어 모델(168)이 구축 또는 증강될 수 있다. 언어 모델은 ASR, 머신 번역, 및 파싱(parsing)과 같은 많은 자연어 처리 애플리케이션들에서 사용된다. 번역 모델(162) 및 번역 모듈(164)에 의해 제공된 언어-내 번역은 언어 모델을 추정(168)할 때 목록을 쿼리 형태로 번역하고 그와 동일한 언어의 번역된 쿼리 형태를 이용함으로써 언어 모델링하는데 사용될 수 있다. 언어 모델을 추정(168)할 때, 번역된 쿼리 형태의 계수는 그의 원래 목록의 계수만큼 곱한 그의 이후의 확률로 설정될 수 있다.
일 실시예에서, 서버 기반 또는 클라이언트 기반 음성 인식기는 언어 모델(168)을 구비할 수 있으며, 이 모델은 음성 인식기로 하여금 목록(154) 또는 목록에 전달된 발성음에 대해 더 정확하고 이해가 빠른 음성 인식을 수행하게 해줄 것이다. 번역 모델(162)은 또한 서버 또는 이동 클라이언트에서 이동 장치(ASR에 의하건 아니면 다른 것에 의하건)에서 입력된 스트링을 디스플레이 형태로 번역하는데 사용될 수 있다.
결론
전술한 실시예들 및 특징들은 휘발성 또는 비휘발성 컴퓨터 또는 장치 판독가능 매체에 저장된 정보의 형태로 실현될 수 있다. 이것은 적어도 광 스토리지(예를 들어, CD-ROM), 자기 매체, 플래시 ROM, 또는 디지털 정보를 저장하는 어떤 현재 또는 미래의 수단 등의 매체를 포함하는 것으로 간주된다. 저장된 정보는 컴퓨팅 장치들이 전술한 다양한 실시예들을 수행하는 것을 가능하게 하거나 구성하는데 사용될 수 있는 머신 실행가능 명령어(예컨대, 컴파일된 실행가능 이진 코드), 소스 코드, 바이트코드, 또는 어떤 다른 정보의 형태일 수 있다. 이것은 또한 적어도 어떤 실시예를 실행하는 프로그램의 실행 중에 CPU 명령어와 같은 정보를 저장하는 RAM 및/또는 가상 메모리와 같은 휘발성 메모리뿐만 아니라 프로그램이 로드되고 실행되도록 해주거나 실행 가능한 정보를 저장하는 비휘발성 매체를 포함하는 것으로 간주된다. 이러한 실시예들 및 특징들은 모든 형태의 휴대용 장치, 워크스테이션, 서버, 이동 무선 장치 등을 포함하는 어떠한 형태의 컴퓨팅 장치에서도 실행될 수 있다. 전술한 모듈, 컴포넌트, 프로세스, 및 검색 엔진(152)은 하나의 컴퓨팅 장치 또는 다수의 협업 컴퓨팅 장치들에서 실현될 수 있다.
Claims (20)
- 인간 언어의 문구들의 언어-내 머신 번역(intra-language machine translation)을 위한 컴퓨터로 구현된 방법으로서,
상기 방법은 하나 이상의 프로세서와 메모리로 구성되는 하나 이상의 컴퓨터에 의해 수행되고,
상기 방법은,
검색 엔진으로 제출되는 인간 언어의 텍스트 쿼리들의 목록 및 상기 텍스트 쿼리들이 상기 검색 엔진에 제출된 경우에 상기 검색 엔진에 의해 반환된 상기 인간 언어의 텍스트 문장들의 목록을 포함하는 훈련 데이터를 수신하고, 상기 텍스트 쿼리들과 상기 텍스트 문장들을 비교하여 텍스트 문장과 유사한 텍스트 쿼리를 식별하고 소스 문구들로서의 상기 식별된 텍스트 쿼리들을 타깃 문구들로서의 각각의 식별된 텍스트 문장들과 쌍을 이루게 함으로써 상기 소스 문구들과 상기 타깃 문구들의 쌍을 형성하며, 상기 훈련 데이터를 상기 메모리에 저장하는 단계와,
상기 하나 이상의 프로세서에 의해, 각각의 쌍을 처리하는 단계 - 상기 처리하는 단계는 처리되는 현재의 쌍에 대해 상기 현재의 쌍의 소스 문구를 소스 단어로 파싱하고, 상기 현재의 쌍의 타깃 문구를 타깃 단어로 파싱하며, 상기 소스 단어 및 상기 타깃 단어의 정렬(alignment)을 계산하는 것을 포함함 - 와,
상기 하나 이상의 프로세서에 의해, 상기 훈련 데이터 및 이들의 각각의 정렬의 쌍을 사용하여 n-gram 기반 언어-내 통계적 머신 번역 모델을 훈련하는 단계 - 상기 언어-내 통계적 머신 번역 모델은 상기 인간 언어의 텍스트의 입력 문구가 주어지면, 상기 인간 언어의 입력 문구에 대한 가능한 번역물을 식별하고 상기 인간 언어의 상기 입력 문구의 가능한 번역물에 대한 상기 입력 문구의 의미적 등가의 확률을 계산할 수 있음 - 와,
상기 언어-내 통계적 머신 번역 모델을 이용하여 쿼리의 번역물을 찾아내고 상기 번역물을 사용하여 상기 쿼리와 일치하는 목록을 평가하는 단계 - 상기 쿼리는 상기 검색 엔진에 제출된 상기 인간 언어의 텍스트 스트링들을 포함하고, 목록 스트링은 쿼리 스트링과 일치하는 것으로 상기 검색 엔진에 의해 검색되는 실세계 엔티티들의 공식 명칭(formal names)의 텍스트 스트링들을 포함함 -
를 포함하는 컴퓨터로 구현된 방법. - 제1항에 있어서,
상기 언어-내 통계적 머신 번역 모델을 이용하여 쿼리의 번역물을 찾아내고 상기 쿼리와 일치하는 목록을 평가하는 단계는,
상기 검색 엔진으로부터 상기 검색 엔진이 사용자의 쿼리와 일치한 목록들을 수신하는 단계와,
상기 번역 모델을 이용하여 상기 목록들 중 하나의 목록을 쿼리 형태로 번역함으로써 상기 목록들 중 하나의 목록의 상기 쿼리 형태를 생성하는 단계와,
상기 번역 모델을 이용하여 상기 사용자의 쿼리에 대한 상기 쿼리 형태의 유사도를 계산하는 단계와,
상기 계산된 유사도에 기초하여 상기 목록이 상기 사용자의 쿼리와 일치하지 않는지를 판정하는 단계를
를 포함하는 컴퓨터로 구현된 방법. - 제1항에 있어서,
상기 언어-내 통계적 번역 모델을 이용하여 쿼리의 번역물을 찾아내고 상기 쿼리와 일치하는 목록을 평가하는 단계는,
상기 검색 엔진으로부터 상기 검색 엔진이 사용자의 쿼리와 일치한 목록을 수신하는 단계와,
상기 모델을 이용하여 상기 목록이 상기 사용자의 쿼리의 번역물인 확률을 구하는 단계와,
상기 확률에 기초하여 상기 목록이 상기 사용자의 쿼리와 일치하는지를 판정하는 단계
를 포함하는 컴퓨터로 구현된 방법. - 제1항에 있어서,
상기 정렬을 계산하는 것은
상기 소스 및 타겟 문구들의 의미적으로 대등한 단어들이 정렬되도록 상기 현재의 소스 단어, 상기 타겟 단어 또는 이들 모두를 재배열(rearranging)하는 것과,
상기 정렬 및, n-gram 기반 언어-내 통계적 번역 모델의 파라미터를 반복적으로 갱신하는 것
을 포함하는 컴퓨터로 구현된 방법. - 제1항에 있어서,
상기 언어-내 통계적 번역 모델을 이용하여 상기 인간 언어의 언어 모델을 생성하는 단계를 더 포함하며,
상기 언어 모델은 상기 인간 언어의 스트링의 개연성(likelihood)을 결정할 수 있는
컴퓨터로 구현된 방법. - 제5항에 있어서,
상기 언어-내 통계적 번역 모델을 이용하여 상기 인간 언어의 언어 모델을 생성하는 단계는 상기 언어-내 통계적 번역 모델로부터의 상기 언어 모델 번역물을 함께 포함하는 단계를 포함하는
컴퓨터로 구현된 방법. - 제5항에 있어서,
상기 언어 모델을 이용하여 자동 음성 인식을 수행하는 단계를 더 포함하는
컴퓨터로 구현된 방법. - 컴퓨팅 장치가 인간 언어의 문구를 상기 언어의 다른 문구로 번역하기 위한 프로세스를 실행할 수 있게 하는 정보를 저장하는 하나 이상의 컴퓨터 판독가능 저장 매체로서,
상기 프로세스는,
상기 인간 언어의 문구들의 쌍들을 포함하는 훈련 쌍들을 액세스하는 단계 - 상기 훈련 쌍들은 검색 엔진에 제출된 상기 인간 언어의 텍스트 쿼리들 및 상기 텍스트 쿼리들이 상기 검색 엔진에 제출된 경우에 상기 검색 엔진에 의해 반환된 상기 인간 언어의 대응하는 텍스트 문장들을 포함하고, 상기 훈련 쌍들은 상기 텍스트 쿼리들과 상기 텍스트 문장들을 비교하여 상기 텍스트 문장들과 유사한 텍스트 쿼리들을 식별하고 상기 식별된 텍스트 쿼리들을 상기 각각의 식별된 텍스트 문장들과 쌍을 이루게 함으로써 형성됨 - 와,
상기 훈련 쌍들의 각각의 정렬을 계산함으로써 통계적 머신 번역 모델을 상기 훈련 쌍들로 훈련하는 단계 - 상기 정렬은 공백 단어(null word)를 상기 문구에 삽입하거나 또는 상기 문구의 단어들을 재배열함으로써 문구의 단어를 상기 문구가 쌍을 이루는 상기 단어들과 매핑하고, 상기 통계적 머신 번역 모델은 상기 인간 언어의 타겟 스트링이 상기 인간 언어의 주어진 소스 스트링의 유효 번역물일 확률을 계산할 수 있음 - 와,
상기 인간 언어의 텍스트 문구를 수신하고, 상기 텍스트 문구를 상기 인간 언어의 상기 텍스트 문구의 상이한 후보 번역물로 디코딩하며, 상기 통계적 머신 번역 모델을 사용하여 상기 후보 번역물이 상기 텍스트 문구의 번역물인 확률을 계산하는 단계와,
상기 확률에 기초하여, 상기 후보 번역물 중 하나 이상을 컴퓨터에 의해 저장 및 디스플레이 중 하나 이상을 하는 단계
를 포함하는 컴퓨터 판독가능 저장 매체. - 제8항에 있어서,
상기 훈련 쌍들은 검색 엔진이 상기 쿼리 스트링과 일치한 목록들과 쌍을 이루는 사용자에 의해 제출된 쿼리 스트링을 포함하는
컴퓨터 판독가능 저장 매체. - 제8항에 있어서,
상기 수신된 텍스트 문구는 사용자에 의해 입력된 쿼리 스트링을 포함하고, 상기 쿼리 스트링은 상기 인간 언어의 텍스트를 포함하며,
상기 프로세스는 상기 통계적 머신 번역 모델을 이용하여 상기 쿼리 스트링의 복수의 가능성 있는 잠재적 번역물을 식별하는 단계를 더 포함하며,
상기 잠재적 번역물은 상기 인간 언어의 텍스트를 포함하는
컴퓨터 판독가능 저장 매체. - 제8항에 있어서,
상기 수신된 텍스트 문구는 사업 또는 단체 명칭의 목록을 검색하는 검색 엔진으로부터 획득된 단체 또는 사업의 명칭을 포함하고,
상기 명칭은 사용자가 입력한 쿼리에 따라서 상기 검색 엔진으로부터 구해지며,
상기 프로세스는
상기 통계적 머신 번역 모델을 이용하여 상기 명칭이 상기 쿼리 스트링의 유효 번역물일 확률을 결정하는 단계와,
상기 확률에 기초하여 상기 목록과 상기 쿼리의 관련성을 결정하는 단계를 더 포함하는
컴퓨터 판독가능 저장 매체. - 제8항에 있어서,
상기 프로세스는, 상기 통계적 머신 번역 모델을 이용하여 상기 인간 언어의 통계적 언어 모델을 구축하는 단계를 더 포함하고,
상기 통계적 언어 모델은 상기 인간 언어의 문구들의 확률을 제공하는
컴퓨터 판독가능 저장 매체. - 제8항에 있어서,
상기 프로세스는, 상기 통계적 머신 번역 모델을 이용하여 음성 인식기에 의해 인식된 텍스트 쿼리들을 디스플레이 형태로 번역하는 단계를 더 포함하는
컴퓨터 판독가능 저장 매체. - 하나 이상의 프로세서 및 물리적 저장소로 구성되는 하나 이상의 컴퓨터에 의해 수행되는 방법으로서,
상기 물리적 저장소에 저장되며, 상기 하나 이상의 프로세서로 하여금 문구의 번역물의 확률을 계산하게 하도록 구성된 통계적 머신 번역 모델을 제공하는 단계 - 상기 문구는 인간 언어 내에 존재하고, 상기 문구의 번역물은 동일한 인간 언어 내에 존재하며, 상기 통계적 머신 번역 모델은 훈련 쌍을 이용하여 훈련되고, 상기 훈련 쌍은 검색 엔진으로 제출된 상기 인간 언어의 텍스트 쿼리들의 목록 및 상기 텍스트 쿼리들이 상기 검색 엔진에 제출된 경우에 상기 검색 엔진에 의해 반환된 상기 인간 언어의 텍스트 문장들의 목록으로부터, 상기 텍스트 쿼리들을 상기 텍스트 문장들과 비교하여 상기 텍스트 쿼리들 중 어느 텍스트 쿼리가 상기 텍스트 문장들 중 어느 문장과 유사한지를 식별함으로써 계산되며, 상기 텍스트 쿼리와 유사한 것으로 식별된 텍스트 문장은 상기 훈련 쌍을 형성하도록 각각이 쌍을 이룸 - 와,
상기 프로세서에 의해, 상기 통계적 머신 번역 모델을 이용하여 단체 및 사업 중 하나 이상의 쿼리 형태와 목록 형태 간에 번역을 하는 단계를 포함하되,
상기 쿼리 형태는 상기 검색 엔진에 제출된 상기 인간 언어의 문구들을 포함하며, 상기 목록 형태는 상기 검색 엔진에 의해 검색가능한 단체 및 사업 중 하나 이상의 상기 인간 언어의 공식 명칭(formal name)을 포함하는
컴퓨터에 의해 수행되는 방법. - 제14항에 있어서,
상기 통계적 머신 번역 모델을 이용하여 단체 및 사업 중 하나 이상의 쿼리 형태와 목록 형태 간에 번역을 하는 단계는 쿼리 형태와 목록 형태 사이의 유사도를 계산하는 단계를 포함하는
컴퓨터에 의해 수행되는 방법. - 제14항에 있어서,
사용자에 의해 입력된 상기 인간 언어의 사용자 쿼리가 주어지고, 상기 검색 엔진에 의해 발견된 상기 인간 언어의 대응하는 목록이 주어지고, 상기 목록의 후보 번역물들 - 상기 후보 번역물들은 또한 상기 인간 언어로 됨 - 의 집합이 주어지면, 상기 통계적 머신 번역 모델을 이용하여 단체 및 사업 중 하나 이상의 쿼리 형태와 목록 형태 간에 번역하는 단계는 상기 후보 번역물들의 확률을 계산하는 단계를 포함하는
컴퓨터에 의해 수행되는 방법. - 제16항에 있어서,
상기 계산된 확률에 기반하여 상기 주어진 사용자 쿼리의 검색 결과를 생성하는 단계를 더 포함하는
컴퓨터에 의해 수행되는 방법. - 제14항에 있어서,
상기 통계적 머신 번역 모델에 의해 계산된 확률에 기초하여 상기 검색 엔진의 검색 결과를 생성 또는 변경하는 단계를 더 포함하되,
상기 검색 결과는 사용자가 입력한 쿼리 형태에 대응하는
컴퓨터에 의해 수행되는 방법. - 제18항에 있어서,
상기 확률을 이용하여 검색 결과를 순위매김(rank)하거나 제거하는 단계를 더 포함하는
컴퓨터에 의해 수행되는 방법.
- 삭제
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/058,328 | 2008-03-28 | ||
US12/058,328 US8615388B2 (en) | 2008-03-28 | 2008-03-28 | Intra-language statistical machine translation |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20100135757A KR20100135757A (ko) | 2010-12-27 |
KR101543992B1 true KR101543992B1 (ko) | 2015-08-13 |
Family
ID=41114273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020107021217A KR101543992B1 (ko) | 2008-03-28 | 2009-02-27 | 언어-내 통계적 머신 번역 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8615388B2 (ko) |
EP (1) | EP2269148B1 (ko) |
KR (1) | KR101543992B1 (ko) |
CN (1) | CN101981566B (ko) |
WO (1) | WO2009120449A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10867136B2 (en) | 2016-07-07 | 2020-12-15 | Samsung Electronics Co., Ltd. | Automatic interpretation method and apparatus |
Families Citing this family (196)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060116865A1 (en) | 1999-09-17 | 2006-06-01 | Www.Uniscape.Com | E-services translation utilizing machine translation and translation memory |
US7904595B2 (en) | 2001-01-18 | 2011-03-08 | Sdl International America Incorporated | Globalization management system and method therefor |
US7983896B2 (en) | 2004-03-05 | 2011-07-19 | SDL Language Technology | In-context exact (ICE) matching |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US10319252B2 (en) | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US9002869B2 (en) * | 2007-06-22 | 2015-04-07 | Google Inc. | Machine translation for query expansion |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
FR2932942B1 (fr) * | 2008-06-23 | 2011-03-18 | Alcatel Lucent | Procede de recuperation d'une information depuis un terminal telephonique via un serveur de communication et serveur de communication associe. |
US8301437B2 (en) * | 2008-07-24 | 2012-10-30 | Yahoo! Inc. | Tokenization platform |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US20100153366A1 (en) * | 2008-12-15 | 2010-06-17 | Motorola, Inc. | Assigning an indexing weight to a search term |
US20100250335A1 (en) * | 2009-03-31 | 2010-09-30 | Yahoo! Inc | System and method using text features for click prediction of sponsored search advertisements |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
EP2534585A4 (en) * | 2010-02-12 | 2018-01-24 | Google LLC | Compound splitting |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10417646B2 (en) | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
US20110264437A1 (en) * | 2010-04-26 | 2011-10-27 | Honeywell International Inc. | System and method for translating an english language message into another language |
US20110295897A1 (en) * | 2010-06-01 | 2011-12-01 | Microsoft Corporation | Query correction probability based on query-correction pairs |
US8612205B2 (en) * | 2010-06-14 | 2013-12-17 | Xerox Corporation | Word alignment method and system for improved vocabulary coverage in statistical machine translation |
KR101682207B1 (ko) | 2010-08-23 | 2016-12-12 | 에스케이플래닛 주식회사 | 토큰 분리 및 번역 과정을 통합한 통합 디코딩 장치 및 그 방법 |
US10657540B2 (en) | 2011-01-29 | 2020-05-19 | Sdl Netherlands B.V. | Systems, methods, and media for web content management |
US9547626B2 (en) | 2011-01-29 | 2017-01-17 | Sdl Plc | Systems, methods, and media for managing ambient adaptability of web applications and web services |
US10580015B2 (en) | 2011-02-25 | 2020-03-03 | Sdl Netherlands B.V. | Systems, methods, and media for executing and optimizing online marketing initiatives |
US10140320B2 (en) | 2011-02-28 | 2018-11-27 | Sdl Inc. | Systems, methods, and media for generating analytical data |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10642934B2 (en) | 2011-03-31 | 2020-05-05 | Microsoft Technology Licensing, Llc | Augmented conversational understanding architecture |
US9760566B2 (en) | 2011-03-31 | 2017-09-12 | Microsoft Technology Licensing, Llc | Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof |
US9244984B2 (en) | 2011-03-31 | 2016-01-26 | Microsoft Technology Licensing, Llc | Location based conversational understanding |
US9858343B2 (en) | 2011-03-31 | 2018-01-02 | Microsoft Technology Licensing Llc | Personalization of queries, conversations, and searches |
US9298287B2 (en) | 2011-03-31 | 2016-03-29 | Microsoft Technology Licensing, Llc | Combined activation for natural user interface systems |
US9842168B2 (en) | 2011-03-31 | 2017-12-12 | Microsoft Technology Licensing, Llc | Task driven user intents |
US9454962B2 (en) | 2011-05-12 | 2016-09-27 | Microsoft Technology Licensing, Llc | Sentence simplification for spoken language understanding |
US9064006B2 (en) | 2012-08-23 | 2015-06-23 | Microsoft Technology Licensing, Llc | Translating natural language utterances to keyword search queries |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8838434B1 (en) * | 2011-07-29 | 2014-09-16 | Nuance Communications, Inc. | Bootstrap call router to other languages using selected N-best translations |
US9984054B2 (en) | 2011-08-24 | 2018-05-29 | Sdl Inc. | Web interface including the review and manipulation of a web document and utilizing permission based control |
US9009148B2 (en) | 2011-12-19 | 2015-04-14 | Microsoft Technology Licensing, Llc | Clickthrough-based latent semantic model |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9773270B2 (en) | 2012-05-11 | 2017-09-26 | Fredhopper B.V. | Method and system for recommending products based on a ranking cocktail |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US11308528B2 (en) | 2012-09-14 | 2022-04-19 | Sdl Netherlands B.V. | Blueprinting of multimedia assets |
US11386186B2 (en) | 2012-09-14 | 2022-07-12 | Sdl Netherlands B.V. | External content library connector systems and methods |
US10452740B2 (en) | 2012-09-14 | 2019-10-22 | Sdl Netherlands B.V. | External content libraries |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9916306B2 (en) | 2012-10-19 | 2018-03-13 | Sdl Inc. | Statistical linguistic analysis of source content |
US9104733B2 (en) * | 2012-11-29 | 2015-08-11 | Microsoft Technology Licensing, Llc | Web search ranking |
US9183197B2 (en) | 2012-12-14 | 2015-11-10 | Microsoft Technology Licensing, Llc | Language processing resources for automated mobile language translation |
CN103092831B (zh) * | 2013-01-25 | 2015-08-19 | 哈尔滨工业大学 | 一种用于统计机器翻译的参数调整方法 |
DE212014000045U1 (de) | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
US20140350931A1 (en) * | 2013-05-24 | 2014-11-27 | Microsoft Corporation | Language model trained using predicted queries from statistical machine translation |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
AU2014278592B2 (en) | 2013-06-09 | 2017-09-07 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9842101B2 (en) * | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
AU2015266863B2 (en) | 2014-05-30 | 2018-03-15 | Apple Inc. | Multi-command single utterance input method |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9760559B2 (en) * | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
RU2639684C2 (ru) * | 2014-08-29 | 2017-12-21 | Общество С Ограниченной Ответственностью "Яндекс" | Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты) |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9817808B2 (en) * | 2014-09-29 | 2017-11-14 | International Business Machines Corporation | Translation using related term pairs |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10949904B2 (en) * | 2014-10-04 | 2021-03-16 | Proz.Com | Knowledgebase with work products of service providers and processing thereof |
CN106663092B (zh) * | 2014-10-24 | 2020-03-06 | 谷歌有限责任公司 | 具有罕见词处理的神经机器翻译系统 |
US10452786B2 (en) * | 2014-12-29 | 2019-10-22 | Paypal, Inc. | Use of statistical flow data for machine translations between different languages |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10545958B2 (en) | 2015-05-18 | 2020-01-28 | Microsoft Technology Licensing, Llc | Language scaling platform for natural language processing systems |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
CN106484681B (zh) | 2015-08-25 | 2019-07-09 | 阿里巴巴集团控股有限公司 | 一种生成候选译文的方法、装置及电子设备 |
CN106484682B (zh) | 2015-08-25 | 2019-06-25 | 阿里巴巴集团控股有限公司 | 基于统计的机器翻译方法、装置及电子设备 |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US9830384B2 (en) | 2015-10-29 | 2017-11-28 | International Business Machines Corporation | Foreign organization name matching |
US10614167B2 (en) | 2015-10-30 | 2020-04-07 | Sdl Plc | Translation review workflow systems and methods |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
KR102195627B1 (ko) | 2015-11-17 | 2020-12-28 | 삼성전자주식회사 | 통역 모델 생성 장치 및 방법과, 자동 통역 장치 및 방법 |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
CN107704456B (zh) * | 2016-08-09 | 2023-08-29 | 松下知识产权经营株式会社 | 识别控制方法以及识别控制装置 |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
CN107885716B (zh) * | 2016-09-29 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 文本识别方法及装置 |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
CN108304412B (zh) * | 2017-01-13 | 2022-09-30 | 北京搜狗科技发展有限公司 | 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10635863B2 (en) | 2017-10-30 | 2020-04-28 | Sdl Inc. | Fragment recall and adaptive automated translation |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10817676B2 (en) | 2017-12-27 | 2020-10-27 | Sdl Inc. | Intelligent routing services and systems |
US10803256B2 (en) | 2017-12-29 | 2020-10-13 | Paypal, Inc. | Systems and methods for translation management |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10747962B1 (en) | 2018-03-12 | 2020-08-18 | Amazon Technologies, Inc. | Artificial intelligence system using phrase tables to evaluate and improve neural network based machine translation |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
WO2019217013A1 (en) | 2018-05-08 | 2019-11-14 | Google Llc | Contrastive sequence-to-sequence data selector |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10944859B2 (en) | 2018-06-03 | 2021-03-09 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11256867B2 (en) | 2018-10-09 | 2022-02-22 | Sdl Inc. | Systems and methods of machine learning for digital assets and message creation |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
CN111597800B (zh) * | 2019-02-19 | 2023-12-12 | 百度在线网络技术(北京)有限公司 | 同义句的获取方法及装置、设备及存储介质 |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US12032920B2 (en) * | 2019-03-29 | 2024-07-09 | Google Llc | Direct speech-to-speech translation via machine learning |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
CN110147558B (zh) * | 2019-05-28 | 2023-07-25 | 北京金山数字娱乐科技有限公司 | 一种翻译语料处理的方法和装置 |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11410667B2 (en) | 2019-06-28 | 2022-08-09 | Ford Global Technologies, Llc | Hierarchical encoder for speech conversion system |
CN110852324A (zh) * | 2019-08-23 | 2020-02-28 | 上海撬动网络科技有限公司 | 一种基于深度神经网络集装箱箱号检测方法 |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
JP7332486B2 (ja) * | 2020-01-08 | 2023-08-23 | 株式会社東芝 | 記号列変換装置および記号列変換方法 |
CN111680527B (zh) * | 2020-06-09 | 2023-09-19 | 语联网(武汉)信息技术有限公司 | 基于专属机翻引擎训练的人机共译系统与方法 |
US11829720B2 (en) | 2020-09-01 | 2023-11-28 | Apple Inc. | Analysis and validation of language models |
CN114282551B (zh) * | 2021-11-15 | 2023-02-24 | 北京百度网讯科技有限公司 | 翻译方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6502064B1 (en) | 1997-10-22 | 2002-12-31 | International Business Machines Corporation | Compression method, method for compressing entry word index data for a dictionary, and machine translation system |
US20030004716A1 (en) | 2001-06-29 | 2003-01-02 | Haigh Karen Z. | Method and apparatus for determining a measure of similarity between natural language sentences |
US6721728B2 (en) | 2001-03-02 | 2004-04-13 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | System, method and apparatus for discovering phrases in a database |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5991710A (en) | 1997-05-20 | 1999-11-23 | International Business Machines Corporation | Statistical translation system with features based on phrases or groups of words |
US20060143007A1 (en) | 2000-07-24 | 2006-06-29 | Koh V E | User interaction with voice information services |
US6999932B1 (en) | 2000-10-10 | 2006-02-14 | Intel Corporation | Language independent voice-based search system |
AUPR082400A0 (en) | 2000-10-17 | 2000-11-09 | Telstra R & D Management Pty Ltd | An information retrieval system |
US6885985B2 (en) | 2000-12-18 | 2005-04-26 | Xerox Corporation | Terminology translation for unaligned comparable corpora using category based translation probabilities |
US6934683B2 (en) | 2001-01-31 | 2005-08-23 | Microsoft Corporation | Disambiguation language model |
US7027987B1 (en) | 2001-02-07 | 2006-04-11 | Google Inc. | Voice interface for a search engine |
US6985861B2 (en) | 2001-12-12 | 2006-01-10 | Hewlett-Packard Development Company, L.P. | Systems and methods for combining subword recognition and whole word recognition of a spoken input |
US7177814B2 (en) | 2002-02-07 | 2007-02-13 | Sap Aktiengesellschaft | Dynamic grammar for voice-enabled applications |
US7293015B2 (en) * | 2002-09-19 | 2007-11-06 | Microsoft Corporation | Method and system for detecting user intentions in retrieval of hint sentences |
CN100380373C (zh) * | 2002-10-29 | 2008-04-09 | 埃里·阿博 | 知识系统方法和装置 |
WO2005033909A2 (en) | 2003-10-08 | 2005-04-14 | Any Language Communications Inc. | Relationship analysis system and method for semantic disambiguation of natural language |
US7593843B2 (en) * | 2004-03-30 | 2009-09-22 | Microsoft Corporation | Statistical language model for logical form using transfer mappings |
US20060036438A1 (en) | 2004-07-13 | 2006-02-16 | Microsoft Corporation | Efficient multimodal method to provide input to a computing device |
US20080077570A1 (en) * | 2004-10-25 | 2008-03-27 | Infovell, Inc. | Full Text Query and Search Systems and Method of Use |
US7200550B2 (en) * | 2004-11-04 | 2007-04-03 | Microsoft Corporation | Projecting dependencies to generate target language dependency structure |
JP2006268375A (ja) | 2005-03-23 | 2006-10-05 | Fuji Xerox Co Ltd | 翻訳メモリシステム |
US7672931B2 (en) | 2005-06-30 | 2010-03-02 | Microsoft Corporation | Searching for content using voice search queries |
US20070061335A1 (en) | 2005-09-14 | 2007-03-15 | Jorey Ramer | Multimodal search query processing |
JP4058071B2 (ja) * | 2005-11-22 | 2008-03-05 | 株式会社東芝 | 用例翻訳装置、用例翻訳方法および用例翻訳プログラム |
US7813926B2 (en) | 2006-03-16 | 2010-10-12 | Microsoft Corporation | Training system for a speech recognition application |
US8943080B2 (en) * | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
US7949514B2 (en) * | 2007-04-20 | 2011-05-24 | Xerox Corporation | Method for building parallel corpora |
US20080086298A1 (en) * | 2006-10-10 | 2008-04-10 | Anisimovich Konstantin | Method and system for translating sentences between langauges |
US9002869B2 (en) * | 2007-06-22 | 2015-04-07 | Google Inc. | Machine translation for query expansion |
-
2008
- 2008-03-28 US US12/058,328 patent/US8615388B2/en active Active
-
2009
- 2009-02-27 EP EP09725780.2A patent/EP2269148B1/en active Active
- 2009-02-27 WO PCT/US2009/035389 patent/WO2009120449A1/en active Application Filing
- 2009-02-27 CN CN200980112180.XA patent/CN101981566B/zh active Active
- 2009-02-27 KR KR1020107021217A patent/KR101543992B1/ko active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6502064B1 (en) | 1997-10-22 | 2002-12-31 | International Business Machines Corporation | Compression method, method for compressing entry word index data for a dictionary, and machine translation system |
US6721728B2 (en) | 2001-03-02 | 2004-04-13 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | System, method and apparatus for discovering phrases in a database |
US20030004716A1 (en) | 2001-06-29 | 2003-01-02 | Haigh Karen Z. | Method and apparatus for determining a measure of similarity between natural language sentences |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10867136B2 (en) | 2016-07-07 | 2020-12-15 | Samsung Electronics Co., Ltd. | Automatic interpretation method and apparatus |
Also Published As
Publication number | Publication date |
---|---|
CN101981566B (zh) | 2015-04-15 |
EP2269148A4 (en) | 2011-06-29 |
US8615388B2 (en) | 2013-12-24 |
WO2009120449A1 (en) | 2009-10-01 |
EP2269148A1 (en) | 2011-01-05 |
EP2269148B1 (en) | 2018-09-05 |
CN101981566A (zh) | 2011-02-23 |
US20090248422A1 (en) | 2009-10-01 |
KR20100135757A (ko) | 2010-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101543992B1 (ko) | 언어-내 통계적 머신 번역 | |
CN106997376B (zh) | 一种基于多级特征的问题和答案句子相似度计算方法 | |
WO2018157789A1 (zh) | 一种语音识别的方法、计算机、存储介质以及电子装置 | |
US9330661B2 (en) | Accuracy improvement of spoken queries transcription using co-occurrence information | |
US7403941B2 (en) | System, method and technique for searching structured databases | |
US10672391B2 (en) | Improving automatic speech recognition of multilingual named entities | |
US7742922B2 (en) | Speech interface for search engines | |
US9081868B2 (en) | Voice web search | |
US8566076B2 (en) | System and method for applying bridging models for robust and efficient speech to speech translation | |
US20070179784A1 (en) | Dynamic match lattice spotting for indexing speech content | |
KR20080069990A (ko) | 음성 세그먼트 색인 및 검색 방법과 컴퓨터 실행 가능명령어를 갖는 컴퓨터 판독 가능 매체 | |
JP2004005600A (ja) | データベースに格納された文書をインデックス付け及び検索する方法及びシステム | |
CA2454506A1 (en) | Speech input search system | |
JP2004133880A (ja) | インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法 | |
US7401019B2 (en) | Phonetic fragment search in speech data | |
WO2010075015A2 (en) | Assigning an indexing weight to a search term | |
CN111832299A (zh) | 一种中文分词系统 | |
JP2015125499A (ja) | 音声通訳装置、音声通訳方法及び音声通訳プログラム | |
KR20170122755A (ko) | 함의 페어 확장 장치, 그것을 위한 컴퓨터 프로그램, 및 질문 응답 시스템 | |
WO2011037753A1 (en) | Method and apparatus for ordering results of a query | |
Higashinaka et al. | Incorporating discourse features into confidence scoring of intention recognition results in spoken dialogue systems | |
Chien | Association pattern language modeling | |
KR20120052591A (ko) | 연속어 음성인식 시스템에서 오류수정 장치 및 방법 | |
Besacier et al. | Word confidence estimation for speech translation | |
JP2011014130A (ja) | 単語のセットを対応するパーティクルのセットに変換する方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
N231 | Notification of change of applicant | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20180718 Year of fee payment: 4 |