KR20160006682A

KR20160006682A - 하이브리드, 오프라인/온라인 발화 번역 시스템

Info

Publication number: KR20160006682A
Application number: KR1020157030930A
Authority: KR
Inventors: 나오미 아오키 웨이벨; 알렉산더 웨이벨; 크리스티안 퓨근; 케이 로트만
Original assignee: 페이스북, 인크.
Priority date: 2013-05-13
Filing date: 2014-05-01
Publication date: 2016-01-19
Also published as: US9430465B2; KR101729154B1; CN105210056B; US20160364385A1; CA2907775A1; AU2017210631A1; AU2014265782A1; US10331794B2; IL242230A; BR112015028622A2; CN105210056A; MX348169B; AU2014265782B2; JP2016527587A; CA2907775C; US20140337007A1; WO2014186143A1; JP6157725B2; MX2015015799A; AU2017210631B2

Abstract

무선-가능한 클라이언트 컴퓨팅 장치가, 오프라인 모드에서, 입력 음성 발화를 한 언어에서 다른 언어로 로컬에서 번역하고, 또한 무선 네트워크 연결이 있을 때 온라인 모드에서 원격 컴퓨터가 번역을 수행하고 다시 클라이언트 컴퓨팅 장치로 무선 네트워크를 통해 클라이언트 컴퓨팅 장치에 의한 청각적 출력을 위해 다시 전송하는 하이브리드 발화 번역 시스템이다. 클라이언트 컴퓨팅 장치의 사용자는 모드 간에서 이행할 수 있고 또는 이행은 사용자 선호도 또는 설정에 기반하여 자동으로 될 수 있다. 백-엔드 발화 번역 서버 시스템은 오프라인 모드에서 클라이언트 컴퓨팅 장치에 의해 사용되는 다양한 인식 및 번역 모델을 시간에 걸친 사용자 데이터 분석에 기반하여 적응시킬 수 있고, 그럼으로써 클라이언트 컴퓨팅 장치를 백-엔드 발화 번역 서버 시스템보다 규모가 작고, 보다 효율적이고 빠른 모델을 가지면서 사용자의 영역에 적응되도록 구성한다.

Description

하이브리드, 오프라인/온라인 발화 번역 시스템 {HYBRID, OFFLINE/ONLINE SPEECH TRANSLATION SYSTEM}

발화-대-발화 번역(speech-to-speech translation; STS) 시스템은 종종 두 상이한 형태 중 하나로 제공된다: 인터넷을 통한 온라인 또는 사용자의 장치(예컨대, 스마트폰 또는 다른 적절한 컴퓨팅 장치)에 내장된 오프라인. 온라인 버전은 큰 서버(클라우드)의 자원의 중요한 처리에서 오는 이점을 가지고, 향상과 사용자화를 가능하게 하는 데이터를 서비스 공급자에 공급한다. 하지만, 온라인 처리는 계속적인 네트워크 연결을 필요로 하고, 모든 장소에서 보장될 수 없거나 특정 상황에서는 로밍 비용 또는 사생활/보안 관련하여 바람직하지 않을 수 있다. 대안적인 전개로, Jibbigo 발화 번역 앱과 같은 발화-대-발화 번역기가 스마트폰 자체에 로컬로 내장되어 실행되는 소프트웨어로서 제공될 수 있고, 네트워크 연결은 번역 애플리케이션의 최초 다운로드 이후에 요구되지 않는다. 이러한 오프라인 내장 발화 번역 기능은 언어 지원이 필요하나, 네트워크가 사용 가능하지 않거나, 간헐적이거나 너무 비싼 실용적이지 않은 상황이라면 선호되는 배치이다. 많은 여행자가 그런 간헐적 또는 연결 부재를 경험하는데, 예컨대 항공기 운행 도중, 원격 지리적 위치, 빌딩 또는 단순히 외국에서의 여행 중 관련된 로밍 비용을 피하기 위하여 데이터 로밍이 꺼져있을 때이다.

이러한 발화 번역 서비스 또는 소프트웨어가 제공되는 방법 또한 어떤 규모로 소프트웨어가 영역(domain)-의존 또는 영역-독립적인 방식으로 구동할 수 있거나/해야하는지 및 사용자의 문맥에 적응할 수 있는지 여부에 영향을 준다. STS 시스템은 만약 엄밀하게 최적화되고 특정 영역 사용으로 전환하면 보통 한 영역에서는 잘 작동하고 다른 영역에서는 잘 작동하지 않을 것이고(영역-의존), 또는 모든 영역에 대해 더 또는 덜 동일하게 동작하도록 하여 영역-독립을 시도할 것이다. 어느 해결책이든 모든 특정 상황에서 성능을 제한한다.

사용자는 공통적으로 온라인 클라이언트 프로그램을 그/그녀의 컴퓨팅 장치에서 실행한다. 이 장치는 일반적으로 발화를 디지털화하고 인코딩할 수 있고, 통신 라인을 거쳐 샘플 또는 계수를 서버로 전송한다. 서버는 무거운 계산 발화 인식 및/또는 번역을 수행하고 결과를 통신 라인을 통해 사용자에게 다시 전송하고, 결과는 사용자의 장치에 디스플레이된다. 다른 온라인 디자인은 서버에 진행 체인의 다른 부분을 옮기고 장치에서 더 많은 또는 더 적은 계산 작업을 하는 것이 제안되어 왔다. 발화 인식, 번역 및 번역 시스템에서, 사용자의 장치는 마이크, 또는 아날로그-디지털 컨버터만큼 단순해질 수 있거나, 또는 노이즈 제거, 계수로 인코딩, 하나 이상의 발화 인식 패스, 또는 하나 이상의 언어 처리 스텝과 같은 보다 복잡한 기능을 제공할 수 있다. 오프라인 디자인은 반면 전체 애플리케이션을 장치 자체에서 내장된 애플리케이션으로 실행한다. 모든 계산은 장치에서 로컬로 수행되고 사용 중 클라이언트와 서버 간 전송은 필요하지 않다.

일반적으로, 온라인 디자인은 매우 단순한 클라이언트만 필요로 하는 장점이 있고 따라서 애플리케이션이 매우 단순한 컴퓨팅 장치 또는 휴대폰에서 실행될 수 있는 반면, 모든 무거운 계산 및 처리는 큰 컴퓨팅 서버에서 수행된다. 발화 및 기계 번역에 대하여 보다 진보됐지만 계산 집중된 알고리즘이 사용될 수 있고, 최신의 배경 정보가 사용될 수 있다는 의미이다. 사용자가 새로운 시스템 버전을 다운로드하거나 업그레이드하는 것을 요구하지 않고 서비스의 개발자 또는 조작자가 서비스 또는 기능을 서버에서 유지/발전시킬 수 있는 장점도 있다.

온라인 디자인의 단점은 네트워크 연결에 치명적으로 의존한다는 사실이다. 하지만 사용자가 원격지를 이동하고 여행함에 따라, 연결은 간헐적이고 및/또는 매우 비싸고(로밍) 따라서 많은 방법으로 사용 불가능하다. 발화 및 발화 번역 시스템에 있어서 이 요구사항은 종종 받아들일 수 없는 것이다. 텍스트 또는 이메일 전송과 다르게, 목소리는 연결의 임시적인 실수를 허용할 수 없고 정보 손실 없이 또는 실시간 퍼포먼스로 발화 스트림의 대응하는 인터럽션을 허용할 수 없다. 그러므로 온라인 디자인은 연속적이고, 실시간 전송과 그로 인한 사용 중 연속적인 연결을 보장해야 한다.

한 일반적인 측면에서, 본 발명은 무선-가능 클라이언트 컴퓨팅 장치(예컨대, 스마트폰 또는 태블릿 컴퓨터)가 입력 단어 구절(예컨대 발화를 입으로 입력하거나 텍스트를 입력)을 한 언어에서 다른 언어로 로컬로 번역할 수 있는, 예컨대 "오프라인" 모드에서, 그리고 또한, 무선 네트워크 연결이 있고 원격 컴퓨터, 예컨대 백-엔드 발화 번역 서버 시스템이 있을 때는 "온라인" 모드에서 번역을 수행하고 클라이언트 컴퓨팅 장치의 출력(스피커를 통한 소리로 및/또는 텍스트 디스플레이 필드를 통해)을 위해 무선 네트워크를 통해 클라이언트 컴퓨팅 장치로 다시 전송하는 하이브리드 발화 번역 시스템을 가리킨다. 다양한 실시예에서, 클라이언트 컴퓨팅 장치의 사용자가 모드 간에서 이행하거나 또는 이행은 사용자 선호 또는 설정에 기반하여 자동으로 - 또한 사용자에게 투명하게 - 이루어질 수 있다. 나아가, 백-엔드 발화 번역 서버 시스템은 시간에 걸친 사용자 데이터 분석에 기반하여 오프라인 모드에서 클라이언트 컴퓨팅 장치에 의해 사용되는 다양한 발화 번역 모델에 적응할 수 있고, 이로써 사용자의 영역에 여전히 적응하며 백-엔드 발화 번역 서버 시스템보다 축소되고, 훨씬 효과적이며 빠른 모델로 클라이언트 컴퓨팅 장치를 설정할 수 있다.

본 발명에 따른 실시예들은 특히 발화 번역 시스템 및 발화 번역 방법에 관한 첨부된 청구항들에 개시되며, 예컨대 방법과 같은 하나의 청구항 카테고리에 언급된 임의의 특징은 예컨대 시스템 같은 다른 청구항 카테고리에도 또한 청구될 수 있다. 첨부된 청구항과 후술되는 실시예의 의존 관계 또는 언급은 형식적인 이유만을 위하여 선택된 것이다. 하지만 임의의 이전의 청구항 또는 실시예(특히 다중 종속)의 의도적인 참조의 결과인 임의의 주제 역시 청구될 수 있고, 청구항과 그 특징의 임의의 조합이 개시되고 첨부된 청구항에서 선택된 종속 관계와 상관 없이 청구될 수 있다. 후술되는 실시예의 특징의 임의의 조합 역시 언급되는 참조와 상관 없이 개시된다.

본 발명에 따른 일실시예에서, 발화 번역 시스템은:

- 백-엔드 발화 번역 서버 시스템; 및

- 백-엔드 발화 번역 서버 시스템과 무선 네트워크를 통해 통신하도룩 구성된 클라이언트 컴퓨팅 장치를 포함하는 발화 번역 시스템으로서, 클라이언트 컴퓨팅 장치는:

- 마이크;

- 마이크와 연결된 프로세서;

- 프로세서와 연결되고 프로세서에 의해 실행되는 명령어를 저장하는 메모리; 및

- 프로세서와 연결된 스피커를 포함하고,

- 클라이언트 컴퓨팅 장치는 입력 단어 구절의 제1 언어로부터 제2 언어로의 번역을 스피커를 통해 출력하기 위한 것이고; 및

- 메모리는:

제1 구동 모드에서, 프로세서가 명령어를 실행할 때, 사용자에게 출력하기 위하여 프로세서가 입력 단어 구절을 제2 언어로 번역하고; 및

제2 구동 모드에서:

- 클라이언트 컴퓨팅 장치가 백-엔드 발화 번역 서버 시스템으로 무선 네트워크를 통하여 제1 언어로 클라이언트 컴퓨팅 장치로부터 수신한 입력 단어 구절에 관한 데이터를 전송하고;

- 백-엔드 발화 번역 서버 시스템은 제1 언어의 입력 단어 구절의 제2 언어로의 번역을 무선 네트워크를 통하여 클라이언트 컴퓨팅 장치로부터 수신한 데이터에 기반하여 결정하고; 및

- 백-엔드 발화 번역 시스템은 제1 언어의 입력 단어 구절의 제2 언어로의 번역에 관한 데이터를 클라이언트 컴퓨팅 장치로 무선 네트워크를 통하여 전송하여 클라이언트 컴퓨팅 장치가 제1 언어의 입력 단어 구절의 제2 언어로의 번역을 출력하도록 하는 명령어를 저장한다.

클라이언트 컴퓨팅 장치는 사용자가 제1 구동 모드 및 제2 구동 모드 간에서 스위치하도록 하는 사용자 인터페이스를 가질 수 있다.

클라이언트 컴퓨팅 장치가 무선 네트워크의 연결 상태에 기반하여 자동으로 제1 구동 모드 또는 제2 구동 모드를 사용할 것인지 여부를 선택할 수 있다.

대안적으로, 클라이언트 컴퓨팅 장치는 클라이언트 컴퓨팅 장치의 사용자의 사용자 선호 설정에 기반하여 자동으로 제1 구동 모드 또는 제2 구동 모드를 사용할 것인지 여부를 선택할 수 있다.

본 발명에 따른 추가 실시예에서, 입력 단어 구절은 클라이언트 컴퓨팅에:

- 클라이언트 컴퓨팅 장치의 마이크에 의해 캡처된 입력 음성 발화; 또는 클라이언트 컴퓨팅 장치의 사용자 인터페이스의 텍스트 입력 필드를 통한 텍스트 입력 중 하나를 통해 입력된다.

클라이언트 컴퓨팅 장치는 번역을 스피커를 통해 청각적으로 출력할 수 있다.

본 발명의 발화 번역 시스템에서 클라이언트 컴퓨팅 장치는 메모리에 제1 구동 모드에서 제1 언어의 음성 발화를 인식하고 클라이언트 컴퓨팅 장치의 스피커를 통해 출력하기 위하여 인식된 음성 발화를 제2 언어로 번역하기 위한 로컬 어쿠스틱 모델, 로컬 언어 모델, 로컬 번역 모델 및 로컬 발화 합성 모델을 저장할 수 있다.

백-엔드 발화 번역 서버 시스템은 제2 구동 모드에서 제1 언어의 음성 발화의 제2 언어로의 번역을 무선 네트워크를 통하여 클라이언트 컴퓨팅 장치로부터 수신한 데이터에 기반하여 결정하기 위한 백-엔드 어쿠스틱 모델, 백-엔드 언어 모델, 백-엔드 번역모델 및 백-엔드 발화 합성 모델을 포함할 수 있다.

바람직하게는, 로컬 어쿠스틱 모델은 백-엔드 어쿠스틱 모델과는 상이할 수 있고;

로컬 언어 모델은 백-엔드 언어 모델과는 상이할 수 있고;

로컬 번역 모델은 백-엔드 번역 모델과는 상이할 수 있고; 및

로컬 발화 합성 모델은 백-엔드 발화 합성 모델과는 상이할 수 있다.

나아가, 백-엔드 발화 번역 서버 시스템은: 클라이언트 컴퓨팅 장치로부터 제1 언어에서 제2 언어로의 번역을 위해 수신한 음성 발화를 시간에 걸쳐 모니터링하고; 및 클라이언트 컴퓨팅 장치의 로컬 어쿠스틱 모델, 로컬 언어 모델, 로컬 번역 모델 및 로컬 발화 합성 모델 중 적어도 하나를 클라이언트 장치로부터 제1 언어에서 제2 언어로의 번역을 위해 수신한 음성 발화의 시간에 걸친 모니터링에 기반하여 업데이트하고, 클라이언트 컴퓨팅 장치의 로컬 어쿠스틱 모델, 로컬 언어 모델, 로컬 번역 모델 및 로컬 발화 합성 모델 중 적어도 하나의 업데이트는 백-엔드 발화 번역 서버 시스템으로부터 클라이언트 컴퓨팅 장치로 무선 네트워크를 통해 전송되도록 프로그래밍될 수 있다.

클라이언트 컴퓨팅 장치의 로컬 어쿠스틱 모델, 로컬 언어 모델, 로컬 번역 모델 및 로컬 발화 합성 모델은 사용자에 의한 번역 질의의 분석에 기반하여 업데이트될 수 있다.

클라이언트 컴퓨팅 장치는 클라이언트 컴퓨팅 장치의 위치를 결정하기 위한 GPS 시스템을 포함할 수 있다.

백-엔드 발화 번역 서버 시스템은 클라이언트 컴퓨팅 장치의 로컬 어쿠스틱 모델, 로컬 언어 모델, 로컬 번역 모델 및 로컬 발화 합성 모델 중 적어도 하나를 클라이언트 컴퓨팅 장치의 위치에 기반하여 업데이트하도록 더 프로그래밍될 수 있고, 클라이언트 컴퓨팅 장치의 로컬 어쿠스틱 모델, 로컬 언어 모델, 로컬 번역 모델 및 로컬 발화 합성 모델 중 적어도 하나의 업데이트는 백-엔드 발화 번역 서버 시스템으로부터 클라이언트 컴퓨팅 장치로 무선 네트워크를 통하여 전송된다.

나아가, 백-엔드 발화 번역 서버 시스템은 복수의 백-엔드발화 번역 시스템 중 하나일 수 있고, 클라이언트 컴퓨팅 장치는 복수의 백-엔드 발화 번역 서버 시스템 각각과 무선 네트워크를 통하여 통신하도록 구성될 수 있다.

제2 구동 모드에서, 복수의 백-엔드 발화 번역 서버 시스템 각각은 제1 언어의 입력 단어 구절의 제2 언어로의 번역을 무선 네트워크를 통하여 클라이언트 컴퓨팅 장치로부터 수신한 데이터에 기반하여 결정하기 위한 것일 수 있고; 및 복수의 백-엔드 발화 번역 서버 시스템 중 하나는 클라이언트 컴퓨팅 장치로 전송하기 위하여 복수의 백-엔드 발화 번역 서버 시스템으로부터의 번역 중 하나를 선택할 수 있다.

대안적으로, 복수의 백-엔드 발화 번역 시스템 중 하나는 복수의 백-엔드 발화 번역 서버 시스템 중 둘 이상의 번역을 결합하여 클라이언트 컴퓨팅 장치로 전송하기 위하여 결합된 번역을 생성한다.

본 발명의 다른 측면에 따르면, 발화 번역 방법이 개시되고, 발화 번역 방법은:

- 제1 구동 모드에서:

- 클라이언트 컴퓨팅 장치에 의하여 제1 언어의 제1 입력 단어 구절을 수신하는 단계;

- 클라이언트 컴퓨팅 장치에 의하여 제1 입력 단어 구절을 제2 언어로 번역하는 단계;

- 클라이언트 컴퓨팅 장치에 의하여 제1 입력 단어 구절을 제2 언어로 출력하는 단계;

- 클라이언트 컴퓨팅 장치에 의하여 제1 구동 모드에서 제2 구동 모드로 이행하는 단계;

- 제2 구동 모드에서:

- 클라이언트 컴퓨팅 장치에 의하여 제1 언어의 제2 입력 단어 구절을 수신하는 단계;

- 클라이언트 컴퓨팅 장치에 의하여, 무선 네트워크를 통하여, 제2 입력 단어 구절에 관한 데이터를 백-엔드 발화 번역 서버 시스템으로 전송하는 단계;

- 클라이언트 컴퓨팅 장치에 의하여, 백-엔드 발화 번역 서버 시스템으로부터 무선 네트워크를 통하여, 백-엔드 발화 번역 서버 시스템에 의한 제2 입력 단어 구절의 제1 언어로부터 제2 언어로의 번역에 관한 데이터를 수신하는 단계; 및

- 클라이언트 컴퓨팅 장치에 의하여 제2 언어의 제2 입력 단어 구절을 출력하는 단계를 포함한다.

본 발명의 추가 실시예에서, 클라이언트 컴퓨팅 장치는 메모리에 제1 구동 모드에서 제1 언어의 음성 발화를 인식하고 클라이언트 컴퓨팅 장치의 스피커를 통해 출력하기 위하여 인식된 음성 발화를 제2 언어로 번역하기 위한 로컬 어쿠스틱 모델, 로컬 언어 모델, 로컬 번역 모델 및 로컬 발화 합성 모델을 저장하고; 바람직하게는 백-엔드 발화 번역 서버 시스템은 제2 구동 모드에서 제1 언어의 음성 발화의 제2 언어로의 번역을 무선 네트워크를 통하여 클라이언트 컴퓨팅 장치로부터 수신한 데이터에 기반하여 결정하기 위한 백-엔드 어쿠스틱 모델, 백-엔드 언어 모델, 백-엔드 번역모델 및 백-엔드 발화 합성 모델을 포함한다.

상기 방법은

- 백-엔드 발화 번역 서버 시스템에 의하여, 클라이언트 컴퓨팅 장치로부터 제1 언어에서 제2 언어로의 번역을 위해 수신한 음성 발화를 시간에 걸쳐 모니터링하는 단계; 및

- 백-엔드 발화 번역 서버 시스템에 의하여, 클라이언트 컴퓨팅 장치의 로컬 어쿠스틱 모델, 로컬 언어 모델, 로컬 번역 모델 및 로컬 발화 합성 모델 중 적어도 하나를 클라이언트 장치로부터 제1 언어에서 제2 언어로의 번역을 위해 수신한 음성 발화의 시간에 걸친 모니터링에 기반하여 업데이트하고, 클라이언트 컴퓨팅 장치의 로컬 어쿠스틱 모델, 로컬 언어 모델, 로컬 번역 모델 및 로컬 발화 합성 모델 중 적어도 하나의 업데이트는 백-엔드 발화 번역 서버 시스템으로부터 클라이언트 컴퓨팅 장치로 무선 네트워크를 통해 전송되는, 업데이트 하는 단계를 더 포함할 수 있다.

발화 번역 방법은 클라이언트 컴퓨팅 장치에 의하여 제1 및 제2 언어를 포함하는 언어 번역 쌍을 위한 애플리케이션 소프트웨어를 다운로드하는 단계를 더 포함할 수 있다.

언어 번역 쌍을 위한 애플리케이션 소프트웨어를 다운로드하는 단계는 클라이언트 컴퓨팅 장치 및 백-엔드 발화 번역 서버 시스템 간 적절한 연결이 무선 네트워크를 사용 가능할 때 언어 번역 쌍을 위한 애플리케이션 소프트웨어를 다운로드하는 단계를 포함할 수 있다.

본 발명의 추가 실시예에서, 발화 번역 방법은:

- 클라이언트 컴퓨팅 장치에 의하여 클라이언트 컴퓨팅 장치의 위치를 결정하는 단계; 및

- 클라이언트 컴퓨팅 장치에 의하여 클라이언트 컴퓨팅 장치의 결정된 위치에 기반하여 클라이언트 컴퓨팅 장치 및 백-엔드 발화 번역 서버 시스템 간 적절한 연결이 무선 네트워크를 사용 가능할 때 언어 번역 쌍을 위한 애플리케이션 소프트웨어를 다운로드하는 단계를 포함할 수 있다.

바람직하게는, 클라이언트 컴퓨팅 장치는 동시에 디스플레이되는 제1 언어 디스플레이 영역 및 제2 언어 디스플레이 영역을 가지는 그래픽 사용자 인터페이스를 포함할 수 있고; 및

- 제1 및 제2 언어 디스플레이 영역 각각은 사용자-접근가능한 복수의 언어의 목록을 포함할 수 있다.

상기 방법은 클라이언트 컴퓨팅 장치에 의하여 그래픽 사용자 인터페이스를 통하여 제1 언어 디스플레이 영역의 제1 언어의 선택 및 제2 언어 디스플레이 영역의 제2 언어의 선택을 수신하는 단계를 더 포함할 수 있어, 그럼으로써 클라이언트 컴퓨팅 장치가 입력 음성 발화를 제1 언어에서 제2 언어로 번역하도록 구성된다.

제1 구동 모드에서 사용 가능한 언어는 그래픽 사용자 인터페이스의 제1 및 제2 언어 디스플레이 영역에서 제1 구동 모드에서 사용 불가능한 언어와 시각적으로 다르게 지정될 수 있다.

클라이언트 컴퓨팅 장치에 의하여 제1 구동 모드에서 제2 구동 모드로 이행하는 단계는 클라이언트 컴퓨팅 장치의 사용자 인터페이스를 통한 제1 모드에서 제2 모드로의 이행 하는 입력에 응답하는 것이다.

본 발명의 이들 및 다른 장점은 후술되는 설명으로 명백해질 것이다.

본 발명의 내용 중에 포함되어 있다.

본 명세서에 서술되는 본 발명의 다양한 실시예들은 하기의 도면과 함께 예로서 본 명세서에 기술된다:
도 1 및 8은 본 발명의 다양한 실시예에 따른 하이브리드 발화 번역 시스템의 블록도이고;
도 2a 내지 2b 및 4a 내지 4b는 클라이언트 컴퓨팅 장치의 사용자가 원하는 언어 번역 쌍을 선택하고, 오프라인 모드에서 온라인 모드로 및 그 반대로 이행할 수 있는 본 발명의 다양한 실시예에 따른 그래픽 사용자 인터페이스의 샘플 스크린 샷을 제공하고;
도 3은 본 발명의 다양한 실시예에 따른 클라이언트 컴퓨팅 장치의 블록도이고;
도 5는 본 발명의 다양한 실시예에 따른 자동으로 오프라인 및 온라인 모드 간에 이행하는 클라이언트 컴퓨팅 장치의 프로세스를 도식화한 흐름도이고;
도 6은 본 발명의 다양한 실시예에 따른 오프라인 발화 번역의 다양한 모델과 표를 업데이트하는 클라이언트 컴퓨팅 장치의 프로세스를 도식화한 흐름도이고; 및
도 7은 본 발명의 다양한 실시예에 따른 오프라인 및 온라인 모드에서 발화 번역 처리를 도식화한 흐름도이다.

본 발명은 일반적으로 무선-가능 클라이언트 컴퓨팅 장치(예컨대, 스마트폰 또는 태블릿 컴퓨터)가 온라인(예컨대, 원격 컴퓨터 시스템에서 발화 번역이 처리됨)과 오프라인(예컨대, 클라이언트 컴퓨팅 장치에 내장되어 발화 번역이 처리됨) 능력을 모두 가지는 발화 번역 시스템에 관한 것이다. 도 1은 본 발명의 다양한 실시예에 따른 발화 번역 시스템(10)의 예시적인 실시예의 블록도이다. 도 1에 도시된 바와 같이, 시스템(10)은 무선-가능 클라이언트 컴퓨팅 장치(12), 무선 네트워크(14), 데이터 통신 네트워크(15)(예컨대, 인터넷), 백-엔드 발화 번역 서버 시스템(16) 및 애플리케이션 스토어 서버 시스템("앱 스토어")(18)을 포함한다. 클라이언트 컴퓨팅 장치(12)는 클라이언트 컴퓨팅 장치(12)에 의해 수신된 발화를 제1 언어에서 제2(혹은 또 다른) 언어로 번역하기 위해 사용자에 의해 사용된다. 클라이언트 컴퓨팅 장치(12)는 임의의 적절한 컴퓨팅 장치, 예컨대 데스크탑 또는 랩탑 컴퓨터일 수 있으나, 보다 바람직하게는 모바일, 휴대용 컴퓨팅 장치, 예컨대 스마트폰 또는 태블릿 컴퓨터일 수 있다. 클라이언트 컴퓨팅 장치(12)의 예시에 관한 보다 자세한 사항은 도 3과 관련하여 후술된다.

클라이언트 컴퓨팅 장치(12)는 또한 바람직하게는 무선 네트워크(14)를 통해 무선 데이터 통신(예컨대, 클라이언트 컴퓨팅 장치(12)는 "무선-가능"함)이 가능하다. 무선 네트워크(14)는 임의의 적절한 무선 네트워크, 예컨대 IEEE 802.11 WLAN 표준을 사용하는 무선 LAN(WLAN), 예컨대 와이파이 네트워크다. 무선 네트워크(14)는 또한 모바일 통신 네트워크, 예컨대 3G 또는 4G LTE 핸드폰 모바일 통신 네트워크를 포함할 수 있으나, 임의의 적절한 무선 통신 역시 사용될 수 있다. 무선 네트워크(14)는 바람직하게는, 예컨대 액세스 포인트 또는 기지국을 통해 인터넷(15)에 대한 연결을 제공한다. 백-엔드 발화 번역 서버 시스템(16)과 앱스토어(18)는 인터넷(15)에 연결되고, 따라서 클라이언트 컴퓨팅 장치(12)와 무선 네트워크(14)를 통해 통신한다.

본 명세서에 서술되는 바와 같이, 클라이언트 컴퓨팅 장치(12)는 클라이언트 컴퓨팅 장치(12)가 오프라이인 발화 번역을 수행하거나 온라인 발화 번역을 수행할 수 있도록 하는 소프트웨어(모델을 포함), 계산 집중적인 발화 인식 및/또는 번역 처리 스텝을 제공하는 백-엔드 발화 번역 서버 시스템(16)이 제공된다. 그러므로 백-엔드 발화 번역 서버 시스템(16)은 클라이언트 컴퓨팅 장치(12)로부터 무선 네트워크(14)를 통해 수신하는 데이터에 기반한 발화 번역을 수행하는 하나 이상의 네트워크 컴퓨터 서버를 포함할 수 있다. 그러므로 백-엔드 발화 번역 서버 시스템(16)은 예컨대: 제1 언어로 입력된 음성 발화 데이터의 발화를 인식하기 위한 자동 발화 인식(automatic speech recognition; ASR) 모듈(20); 제1 언어로 인식된 것을 선택된 제2 언어로 변환/번역하는 기계 번역(machine translation; MT) 모듈(22); 및 번역을 제2 언어로 합성하여 제2 언어의 청각적 출력 신호로 합성하는 발화 합성 모듈(24)을 포함할 수 있다. ASR 모듈(20)은 예컨대, (i) 단어의 큰 목록과 주어진 시퀀스에서 그들의 출현 확률을 포함하는 언어 모델, 및 (ii) 언어 모델에서 각 단어를 형성하는 개별 음의 통계적 표현을 포함하는 어쿠스틱 모델을 이용할 수 있다. MT 모델은 예컨대, 적절한 번역 표(또는 모델) 및 언어 모델을 이용할 수 있다. 발화 합성 모듈(24)은 적절한 발화 합성 모델(들)을 이용할 수 있다. 유사하게, 클라이언트 컴퓨팅 장치(12)를 위한 발화 번역 소프트웨어는 (언어 및 어쿠스틱 모듈을 가지는) ASR 모듈, (번역 표/모델 및 언어 모델을 가지는) MT 모듈 및 (발화 합성 모델을 가지는) 발화 합성 모듈을 포함할 수 있다. 온라인 및 오프라인 모드를 위한 ASR, MT 및 합성 모듈(또는 엔진)에 대한 보다 자세한 사항은 본 명세서에 참조로서 전체로 통합된 미국 특허 8,090,570호 및 8,204,739호에서 찾을 수 있다.

클라이언트 컴퓨팅 장치(12)의 사용자는 발화 번역 소프트웨어(또는 애플리케이션 또는 "앱")를 앱스토어(18)을 통해 구매할 수 있다. 다양한 실시예에서, 백-엔드 발화 번역 서버 시스템(16)이 발화 번역 처리의 대부분을 수행하는, 클라이언트 컴퓨팅 장치(12)로의 연결을 가정하는 번역 앱의 온라인 버전은 앱스토어(18)를 통해 무료 다운로드가 가능하다. 온라인 번역 앱은 클라이언트 컴퓨팅 장치(12)에 사용자 인터페이스, 번역을 위한 입력 단어 구절, 예컨대 음성 발화(클라이언트 컴퓨팅 장치(12)의 마이크로 캡처된) 또는 텍스트(사용자 인터페이스에서 제공되는 텍스트 필드를 통해)를 수집하는 능력 및 번역 출력(클라이언트 컴퓨팅 장치(12)의 스피커를 통하여 및/또는 사용자 인터페이스를 통하여 텍스트로)을 제공한다. 이러한 실시예에서, 클라이언트 컴퓨팅 장치(12)는 백-엔드 발화 번역 서버 시스템(16)으로, 무선 네트워크(14)를 통하여, 제1 언어로, 클라이언트 컴퓨팅 장치(12)의 마이크로 녹음되거나 텍스트 입력 필드를 통해 입력된, 번역될 입력 구절에 관한 데이터를 예컨대 디지털, 인코딩된 샘플 또는 입력 발화의 전처리 후 특징 벡터를 포함하는 데이터로서 전송할 수 있다. 수신된 입력 데이터에 기반하여, 백-엔드 발화 번역 서버 시스템(16)은 음성 발화를 선택된 제2 언어로 번역하고, 번역을 나타내는 데이터를 처리, 합성 및 클라이언트 컴퓨팅 장치(12)의 스피커를 통한 청각적 출력을 위하여 클라이언트 컴퓨팅 장치(12)로 무선 네트워크(14)를 통하여 다시 전송한다.

발화 번역 앱은 또한 오프라인 모드에서 구동될 수 있고, 클라이언트 컴퓨팅 장치(12)가 발화 번역을 로컬에서, 백-엔드 발화 번역 서버 시스템(16)과의 연결 없이 수행할 수 있다. 다양한 실시예에서, 클라이언트 컴퓨팅 장치(12)의 사용자가, 무선 네트워크(14)와 연결을 가지고, 선택한 언어 쌍(예컨대, 영어-스페인어, 기타 등등)을 위한 오프라인 앱 소프트웨어를 다운로드 받아서, 오프라인 시스템이 네트워크 연결이 중단된 채로 실행될 수 있다. 도 2a 및 b는 사용자가 원하는 언어 번역 쌍을 선택할 수 있도록 하는 앱을 사용하는 클라이언트 컴퓨팅 장치(12)에서 디스플레이되는 사용자 인터페이스의 샘플을 도시한다. 도시된 사용자 인터페이스 샘플은 또한 사용자가 사용자 컨트롤을 통하여 온라인 또는 오프라인 모드를 선택할 수 있음을 나타낸다. 예를 들어, 도 2a에서 구름 및/또는 설명 "온라인 번역기"로 표시되는 바와 같이 사용자는 사용자 컨트롤(40)을 온라인으로 스위치하고; 도 2b에서 구름을 가로지르는 대각선 및 설명 "오프라인 번역기"로 표시되는 바와 같이 사용자는 사용자 컨트롤(40)을 오프라인으로 스위치한다. 도 2a 및 b의 예시에서, 제1 및 제2 컬럼에서 강조된 선택 영역(46)의 언어로 표시되는, 사용자는 제1 및 제2 컬럼(42, 44)에서 사용자가 원하는 언어 쌍을 얻을 때까지 언어를 위아래로 스크롤한다(스크롤 휠과 같이). 도 2a의 예시에서, 선택된 언어 쌍은 영어(국제 버전) 및 스페인어(멕시코 버전)이다. 도 2b의 예시에서, 선택된 언어 쌍은 영어(국제 버전) 및 스페인어(스페인 버전)이다.

온라인 모드에서, 사용자는 제안된 임의의 언어 쌍에 접근할 수 있다. 이것은 도 2a에 도시된 바와 같이 사용자에게 두 컬럼(42, 44)에서 사용자 가능한 언어의 아이콘(예컨대, 국기)의 색을 보임으로써 표시할 수 있다. 사용자는 두 컬럼을 위/아래로 스크롤하여 원하는 언어 쌍이 선택 영역(46)에 보이도록 한다. 다양한 실시예에서 무선 네트워크 연결이 사용 가능하지 않을 때(후술되는 바와 같이 사용자에 의하여 사용자 컨트롤(40)을 통해 스위치 오프되거나 자동으로 스위치 오프되는 등의 이유로), 클라이언트 컴퓨팅 장치(12)에 이전에 설치된 언어 쌍만이 사용 가능하다. 유사하게, 도 2b에 도시된 바와 같이, 오프라인 모드에서 사용 가능한 언어가 두 컬럼(42, 44)에서 인스톨된 언어의 아이콘(예컨대, 국기)의 색을 보이는 한편 비-설치된 언어를 회색으로 보임으로써 사용자에게 표시될 수 있다.

도 7은 다양한 실시예에 따른 하이브리드 온라인/오프라인 프로세스를 도시하는 흐름도이다. 클라이언트 컴퓨팅 장치(12)(예컨대, 그 마이크)는 제1 언어의 입력 음성을 단계 70에서 캡처한다. 만약, 단계 72에서 온라인 모드가 사용되면, 단계 74에서 클라이언트 컴퓨팅 장치(12)가 무선 네트워크(14)를 통하여, 입력 음성 데이터에 관한 데이터(예컨대, 입력 음성 발화의 샘플 또는 계수)를 백-엔드 발화 번역 서버 시스템(16)으로 다시 전송하고, 단계 76에서 제2 언어로 음성을 번역한다. 단계 77에서, 백-엔드 발화 번역 서버 시스템(16)이 번역을 위한 데이터를 클라이언트 컴퓨팅 시스템(12)으로 무선 네트워크(14)를 통하여 다시 전송하여, 단계 79에서, 클라이언트 컴퓨팅 장치(12)(예컨대, 그 스피커)가 청각적으로 입력 음성의 제2 언어 번역을 출력할 수 있다. 만약 단계 72에서 오프라인 모드가 사용되면, 단계 78에서 클라이언트 컴퓨팅 장치(12)가 메모리에 저장된 다운로드된 오프라인 발화 번역 소프트웨어를 실행하고, 음성을 제2 언어로 번역하고, 단계 79에서 출력된다.

도 3은 다양한 실시예에 따른 클라이언트 컴퓨팅 장치(12)의 블록도이다. 도 3의 예시에 도시된 바와 같이, 장치(12)는 다수의 프로세서(202, 204)를 포함할 수 있다. 기저대역 프로세서(202)는 임의의 적절한 통신 기술(예컨대, 3G, 4G 등)에 따라 모바일 통신 네트워크(예컨대, 셀룰러 네트워크)를 통한 통신을 다룰 수 있다. 기저대역 프로세서(202)는 전용 랜덤 액세스 메모리(RAM)(214)를 포함할 수 있다. 다양한 실시예로, 기저대역 프로세서(202)는 송수신기(206)와 통신할 수 있다. 이후, 송수신기(206)는 하나 이상의 전력 증폭기(208) 및 안테나(210)와 통신할 수 있다. 모바일 통신 네트워크에 대한 발신 신호는 기저대역 프로세서(202)에 의한 기저대역에서 처리될 수 있고 송수신기(206)로 제공될 수 있다. 송수신기(206) 및/또는 기저대역 프로세서(206)는 발신 신호를 반송파 주파수로 변조할 수 있다. 하나 이상의 증폭기(208)는 이후 안테나(210)를 통해 전송될 수 있는 발신 신호를 증폭할 수 있다. 모바일 통신 네트워크에 대한 착신 신호는 안테나(210)에 의해 수신되고 하나 이상의 증폭기(208)에 의해 증폭되며 송수신기(206)로 제공될 수 있다. 송수신기(206) 또는 기저대역 프로세서(202) 중 하나는 착신 신호를 기저대역으로 복조할 수 있다.

응용 프로세서(204)는 운영 시스템뿐 아니라 본 명세서에 기술된 오프라인 및 온라인 발화 인식 및/또는 번역 기능을 포함하는 소프트웨어 애플리케이션을 실행할 수 있다. 또한, 응용 프로세서(204)는 터치 스크린 인터페이스(232)에 대한 소프트웨어를 실행할 수 있다. 또한, 응용 프로세서(204)는 애플리케이션 RAM(212) 및 비-휘발성 데이터 저장소(예컨대, ROM)(216)와 통신할 수 있다. RAM(212)은 프로세서(204)에 의해 실행되기 위하여, 특히 오프라인 및 온라인 번역을 위하여, 오프라인 처리를 위한 자동 발화 인식, 기계 번역 및 발화 합성 모듈 및 온라인 처리를 위한 백-엔드 발화 번역 서버 시스템(16)과 통신하는 소프트웨어를 포함하여, 앱스토어(18)를 통해 다운로드된 애플리케이션 소프트웨어를 저장할 수 있다.

응용 프로세서(204)는 WI-FI/BLUETOOTH 조합 송수신기(218)와 같은 다른 하드웨어 장치와 추가로 통신할 수 있다. WI-FI/BLUETOOTH 송수신기(218)는 (예컨대, WI-FI 표준이나 임의의 적절한 표준에 따라) LAN과의 무선(RF) 통신 또는 (예컨대, BLUETOOTH 표준이나 임의의 적절한 표준에 따라) 장치(200)와 또 다른 무선 장치 사이의 직접적인 RF 통신을 다룰 수 있다. 또한, 다양한 실시예로, 장치(200)는 장치(12)의 지리적 위치를 설명하는 정보를 응용 프로세서(204)에 제공하기 위해 GPS 안테나(223)를 통해 위성-기반 GPS 시스템과 통신하는 위성 항법 시스템(GPS)(222)을 포함할 수 있다. 터치 스크린(232)은 시각적 서식으로 장치(12)의 사용자에게 출력을 제공하고 사용자로부터 입력을 수신하는 것 모두를 할 수 있다. 입력은 사용자에 의한 스크린-터치를 표현하는 신호의 형태 내에 있을 수 있다. 오디오 코덱 모듈(224)은 오디오 신호를 부호화하고 실행하기 위한 하드웨어 및/또는 소프트웨어를 제공할 수 있다. 일부의 실시예로, 코덱(224)은 또한 디지털-대-아날로그 컨버터를 포함할 수 있다. 오디오 출력 신호는 오디오 출력 신호를 실행하기 위해 한 세트의 헤드폰 및/또는 스피커를 수신할 수 있는 장치 스피커(16) 및/또는 잭(미도시)으로 제공될 수 있다. 오디오 입력 신호는 장치 마이크로폰(들)(18)을 통해 제공될 수 있다. 또한, 장치는 디지털 카메라(240)를 포함할 수 있다.

다양한 다른 센서가 특정 실시예에 포함될 수 있다. 자기 센서(226)는 장치 근처의 자기장을 감지할 수 있다. 예컨대, 자기 센서(226)는 다양한 앱 및/또는 시스템 기능에 의해 나침반을 구현하는데 사용될 수 있다. 가속도계(228) 및 자이로스코프(230)는 장치의 동작을 기술하는 데이터를 제공할 수 있다. 예컨대, 가속도계(228) 및 자이로스코프(230)로부터의 데이터는 터치 스크린(232)의 디스플레이를 (예컨대, 세로 대 가로) 지향시키는데 사용될 수 있다. 장치(200)는 배터리(234)에 의해 전력을 공급받을 수 있는데, 이는 결국 전력 관리 집적 회로(PMIC)(236)에 의해 관리될 수 있다. I/O 송수신기(238)는 예컨대 USB(Universal Serial Bus) 또는 임의의 다른 적절한 표준에 따라 장치와 다른 장치 사이의 유선 통신을 관리할 수 있다. 커넥터(239)는 유선 연결을 용이하게 할 수 있다. 일부의 실시예로, 커넥터(239) 및/또는 I/O 송수신기(238)를 통한 연결은 배터리(234)를 충전하기 위한 전력을 제공할 수 있다.

상술한 바와 같이, 다양한 실시예에서 사용자는 예컨대 도 2a 및 2b의 예시에 도시된 바와 같이 사용자 컨트롤(40)의 활성에 의하여 온라인과 오프라인 모드 사이에서 스위치할 수 있다. 온라인 처리는 바람직하게 언어 모델에서 온라인 처리보다 큰 단어를 제공하지만, 온라인 처리는 사용자 입력 음성이 무선 네트워크(14) 및 인터넷을 통해 전송되지 않아 강화된 사용자 개인정보 및 보안을 제공할 수 있다. 또한 번역 앱 소프트웨어는 다양한 실시예에 따라 클라이언트 컴퓨팅 장치(12)가 자동으로 온라인 및 오프라인 모드 사이에서 스위치할 수 있도록 할 수 있다. 예를 들어, 사용자는 앱에 설정을 제공하여 만약 무선 네트워크(14)가 사용 가능하면(예컨대, 적절한 데이터 속도/연결 속도로 네트워크 연결), 온라인 구동 모드가 사용되고; 아니면 오프라인 구동 모드이다. 따라서, 그러한 실시예에서, 도 5의 예시적인 흐름도에 도시된 바와 같이, 만약 클라이언트 컴퓨팅 장치(14)가 무선 통신 모드(예컨대, 와이파이 또는 3G나 4G와 같은 핸드폰 네트워크)에 있으면(단계 50), 클라이언트 컴퓨팅 장치(12)의 프로세서가 메모리에 저장된 앱 소프트웨어를 실행하고, 와이파이 네트워크를 위한 데이터 속도/연결 속도를 체크할 수 있고(단계 52), 만약 임계 데이터 속도/연결 속도보다 높으면, 온라인 모드가 사용되고(단계 54); 그렇지 않으면 오프라인 모드가 사용된다(단계 56). 이런 방식으로, 사용자는 자동화되고, 연속적인 번역 기능을 가지고 오프라인 또는 온라인 모드의 사용이 사용자에게 투명하다. 클라이언트 컴퓨팅 장치(12)는 시각적으로 주어진 시간에 어떤 모드가 사용 중인지 표시할 수 있다(상술된 구름 및 비-구름 아이콘과 같이).

다른 실시예에서, 클라이언트 컴퓨팅 장치(12)의 프로세서는 메모리에 저장된 앱을 실행하고, 온라인 및 오프라인 구동 모드 사이에서 다른 인자, 예컨대: 가격(예컨대, 만약 로밍 비용이 적용되거나, 혹은 네트워크 연결이 없으면, 오프라인 구동 모드가 사용됨); 질(예컨대, 보다 좋은 번역, 어쿠스틱 또는 언어 모델, 예컨대, 특정 오프라인 스피커의 사용 또는 온라인 일반적인 영역 독립 모델); 위치(예컨대, GPS 시스템(222)에 의해 결정된 GPS 좌표에 기반하여); 개인정보(예컨대, 보안 무선 네트워크가 사용 가능할 때에만 온라인 모드를 사용); 및/또는 시간(예컨대, 하루 중 지정된 시간 중에는 지정된 모드)에 기반하여 자동으로 스위치할 수 있다. 다양한 실시예에서, 클라이언트 컴퓨팅 장치(14)의 사용자는 설정을 통해 온라인과 오프라인 구동 모드 사이에서 자동으로 이행하기 위한 응용 가능한 기준을 세우도록 앱을 구성할 수 있다. 예를 들어, 다양한 실시예에 따르면, 사용자는: 항상 오프라인 모드를 사용(온라인 모드를 절대 사용하지 않는 경우); 가장 빠른 서비스를 선호(무선 네트워크의 연결 속도가 임계치를 초과할 때만 온라인 모드를 사용하는 경우); 가장 정확한 번역(온라인 모드가 사용 가능할 때마다 사용하는 경우); 비용을 제한(예컨대, 로밍 비용이 적용 가능할 때 오프라인 모드를 사용)을 선택할 수 있다. 이러한 사용자 선호는 개인정보(데이터 전송), 질(발화 번역 모델의 크기 및 성능) 또는 비용(데이터 로밍)의 고려에 영향 받을 수 있다.

하이브리드 오프라인/온라인 번역 시스템의 또 다른 측면은 클라이언트 컴퓨팅 장치(12)에서 오프라인 모드에 사용 가능하게 된 언어 쌍이다. 클라이언트 컴퓨팅 장치(12)의 메모리 크기 제한 때문에, 많은 경우에 모든 사용 가능한 언어 쌍을 클라이언트 컴퓨팅 장치(12)에 다운로드하는 것은 비현실적이다. 이와 같이, 바람직하게는 클라이언트 컴퓨팅 장치(12)의 사용자는 클라이언트 컴퓨팅 장치(12)에 사용자가 필요한 선택된 언어 쌍만을 다운로드한다. 예를 들어, 다양한 실시예에서, 사용 가능한 오프라인 언어 쌍을 앱스토어(18)를 통하여 선택 또는 구매할 수 있다. 다양한 실시예에서, 사용자는 몇몇 언어 쌍(예컨대 유럽, 동남아시아 등과 같은 지리적 영역의 언어들, 또는 멕시코와 스페인 버전의 스페인어, 포르투갈과 브라질 버전의 포르투갈어 등과 같이 동일한 언어의 버전들)을 포함하는 패키지를 구매할 수 있고, 패키지 내의 모든 언어 쌍의 소프트웨어 앱이 클라이언트 컴퓨팅 장치(18)에 다운로드 가능하다. 예를 들어, 도 4a는 사용자가 구매할 다양한 번역 언어 쌍을 선택할 수 있는 샘플 스크린샷을 도시하고; 도 4b는 번역 언어 쌍의 패키지(이 예시에서, 세계 패키지)의 샘플 스크린샷을 포함한다. 만약 사용자가 클라이언트 컴퓨팅 장치로부터 동일한 메모리로 언어 쌍을 제거하고 싶다면, 다양한 실시예에서, 사용자는 그 사용 가능성을 잃지 않으면서 쌍과 대응하는 모델을 제거할 수 있다. 즉, 사용자는 나중에 모델을 다시 다운로드할 수 있다.

일실시예에서, 언어 쌍의 다운로드 선택은 사용자에게 남고, 사용자는 클라이언트 컴퓨팅 장치에 오프라인 번역을 위해 설치될 쌍을 선택한다. 만약 사용자가 선택한 언어 쌍(들)을 설치하기 원하지만 만족스러운 네트워크 연결이 없으면, 클라이언트 컴퓨팅 장치는 요청을 저장하고 다음에 네트워크 연결이 사용 가능할 때 사용자에게 쌍을 다운로드하기 위한 리마인더 메시지를 발행한다. 리마인더 메시지는 사용자에게 그/그녀가 선택된 언어 쌍(들)의 오프라인 버전을 다운로드하기 원하는지 질의하고 만약 사용자에게 확인 받으면 다운로드를 진행한다.

다른 실시예에서, 클라이언트 컴퓨팅 장치(12) 스스로 사용자를 위한 오프라인 번역 쌍을 관리할 수 있다. 예를 들어, 클라이언트 컴퓨팅 장치(12)는 전세계에서 사용되는 언어에 관한 데이터를 유지하고 사용자의 위치에 관한 오프라인 언어 쌍을 자동으로 다운로드할 수 있다. 예를 들어, 만약 GPS 시스템(22)가 사용자가 스페인에 있다고 표시하면, 스페인 버전의 스페인어가 다운로드될 수 있는 등이다. 또한, 예컨대, 사용자의 달력 데이터(예컨대, 여행) 또는 사용자의 관심 또는 세계의 특정 영역에 여행 가려는 계획을 나타내는 웹 검색 데이터에 기반하여 오프라인 언어 쌍이 자동으로 다운로드될 수 있다.

사용자의 위치(예컨대, GPS 데이터에 기반하여) 및/또는 관심(예컨대, 인터넷 검색 데이터 및/또는 발화 번역 질의)에의 접근 또한 발화 번역 시스템에 그 언어 행동의 사용자화를 제안한다. 특정 단어, 지역 이름 및 음식 타입이 선호될 수 있다. 특히, 이름(지역 이름, 사람 이름)이 보다 많이 또는 적게 관련될 수 있고 지역에 의존할 수 있다(예컨대, 일본의 카와사키 및 야마모토인 반면 스페인의 Martinez 또는 Gonzales, 기타 등등). 그러므로 인식 및 번역 모델의 모델링 파라미터, 가장 중요하게는 그들의 단어 및 가능한 번역이 사용자의 위치 및 관심사에 기반하여 조정될 수 있다. 온라인 모드에서, 이 모든 것이 설정된 적응 알고리즘을 사용하여 사용 중 동적으로 수행될 수 있다. 하지만 오프라인 시스템에서, 모든 단어가 저장되지 않고 메모리는 모바일 장치의 효율을 달성하기 위하여 아껴져야 한다. 그러므로 시스템은, 다양한 실시예에서, 사용자화된 파라미터 모델을 오프라인/내장 시스템에서조차 네트워크 연결이 사용 가능할 때 백-엔드 발화 번역 시스템(16)으로부터 다운로드하고, 단어 아이템, 언어 모델 및 수정된 확률적 어쿠스틱 파라미터를 교환한다.

발화 번역 시스템의 가장 메모리 집중적인 측면은 일반적으로 기계 번역 엔진의 번역 표 및 언어 모델, 인식 엔진의 어쿠스틱 및 언어 모델, 및 발화 합성 엔진의 음성 파라미터에서 주어진다. 클라이언트 컴퓨팅 장치(12)에 로컬화된 오프라인 번역 앱을 위한 모델의 크기를 줄이기 위하여, 모델의 타입에 의존하는 상이한 기술들이 사용될 수 있다. 어쿠스틱 모델 및 언어 모델과 같이 모델 파라미터로서 확률을 가지는 모델은 확률의 값 범위를 양자화하여 값 범위가 연속적으로부터 고정된 수의 값만을 가지는 이산적 공간으로 매핑될 수 있음으로써 감소될 수 있다. 양자화 인자에 의존하여, 저장 요구조건이 불과 한 바이트 또는 수 비트로 감소될 수 있다. 번역 표 및 언어 모델과 같이 단어의 구절을 저장하는 모델은 접두사 트리와 같은 효율적으로 구현된 저장 기술을 사용할 수 있다. 나아가, 메모리-매핑 기술이 사용되어 모델의 작은 부분만을 RAM(212/214)에 요구에 따라 로드할 수 있고, 필요하지 않은 부분은 비활성 저장소(216)에 건드리지 않고 남겨질 수 있다.

언어 모델 및/또는 번역 모델을 주어진 크기로 감소시켜 오프라인 클라이언트 컴퓨팅 장치에서 실행시키기 위한 또 다른, 보다 세련된 접근은 어휘 및 단어 N-그램을 제거하거나 추가적인 정보를 추가함으로써 기초 모델을 확장하는 특별한 트리밍/확장 휴리스틱을 사용하는 것이다. 제거는 기회적 방식(opportunistic manner)로 수행되어 사용자의 가장 가능성 있는 단어 및 표현이 자원 제한, 예컨대 어휘를 사용자-특정 서브셋만으로 제한하고 이 어휘에 의해 커버되는 일반 모델의 이들 부분만을 선택하거나, 자동으로 사용자-특정 정보를 사용자의 질의로부터 수집하고 사용자의 질의에 밀접하게 관련된 일반 모델의 이들 부분을 선택함에도 불구하고 여전히 표시된다. 반면 확장은 사용자 특정 - 예컨대, 사용자의 말하는 스타일에 기반하여 - 및/또는 영역 특정 - 예컨대, 관광업 사용 또는 인도주의적 사용 - 및/또는 상황 특정 - 예컨대, GPS 위치에 기반하여 - 및/또는 일반적인, 서버의 상술한 특정 정보 중 어느 것에도 관련되지 않은 정보만을 선택하고, 이 (델타) 정보만을 서버로부터 장치로 전송하고 이 정보를 장치에 저장된 기초 모델에 적용함으로써 수행될 수 있다.

예를 들어, 도 6의 흐름도와 관련하여, 단계 60에서 백-엔드 발화 번역 서버 시스템(16)이 단계 62에서 사용자의 오프라인 언어 모델 및/또는 번역 표가 업데이트되어 할지 결정할 사용자 데이터를 분석할 수 있고, 예를 들어, 드물게 사용되는 단어 또는 표현을 제거하는 한편, 흔히 쓰이는 사용자의 단어 및 표현을 유지하거나 흔히 쓰이는 번역 및 표현을 서버에서 추출하고 클라이언트 컴퓨팅 장치에 저장된 기초 모델에 적용한다. 상술한 바와 같이, 백-엔드 발화 번역 서버 시스템(16)은 흔히(또는 흔치 않게) 사용된 단어 및 표현을 결정하기 위하여, 사용자의 번역 질의(예컨대, 번역될 표현) 및/또는 인터넷 브라우징 이력을 번역할 수 있다. 이와 같이, 다양한 실시예에서, 사용자의 오프라인 모드에서의 번역 질의는 클라이언트 컴퓨팅 장치(12)에 의해 저장되고, 네트워크 연결 기간 동안 백-엔드 발화 번역 서버 시스템(16)에 업로드되어 백-엔드 발화 번역 서버 시스템(16)에 의해 분석될 수 있다. 유사하게, 사용자의 인터넷 브라우징 이력(예컨대, 쿠키 데이터)가 네트워크 연결 기간 동안 백-엔드 발화 번역 서버 시스템(16)에 업로드되어 사용자에 의해 흔히(또는 흔치 않게) 사용된 단어 및 표현을 결정하기 위해 백-엔드 발화 번역 서버 시스템(16)에 의해 분석될 수 있다. 만약, 사용자 데이터의 번역을 통하여, 백-엔드 발화 번역 서버 시스템(16)이 클라이언트 컴퓨팅 장치의 오프라인 처리 소프트웨어의 언어 모델 및/또는 번역 표가 업데이트되어야 하는 것으로 결정하면, 단계 64에서 업데이트된 소프트웨어(예컨대, 모델)이 클라이언트 컴퓨팅 장치로(예컨대, 백-엔드 발화 번역 서버 시스템(16)으로부터) 다운로드된다. 전체 모델을 다운로드하는 대신, 모델을 업데이트하는데 필요한 (델타) 정보만을 클라이언트 컴퓨팅 장치에 다운로드하는 것도 가능하다.

유사하게, 사용자 특정 정보 또한 예컨대 보다 일반적인 어쿠스틱 모델을 보다 작은 사용자-특정 모델로 대체함으로써 어쿠스틱 모델의 크기를 줄이는데 유용할 수 있다. 사용자-특정 데이터의 양에 의존하여, 예컨대, MLLR과 같은 어쿠스틱 모델 적응 기술을 사용하거나 추가의 새 데이터를 사용하여 어쿠스틱 모델을 완전히 재교육시킴으로써 이것이 달성될 수 있다. 그러므로, 예를 들어, 다시 도 6을 참조하면, 만약 단계 66에서 백-엔드 발화 번역 서버 시스템(16)이 사용자의 클라이언트 컴퓨팅 장치(12)를 위한 오프라인 모드 어쿠스틱 모델이 사용자 데이터의 분석에 기반하여 수정되어야 하는 것으로 결정하면, 단계 68에서 업데이트된 소프트웨어(예컨대, 어쿠스틱 모델)가 클라이언트 컴퓨팅 장치에(예컨대, 백-엔드 발화 번역 서버 시스템(16)으로부터) 다운로드된다.

발화-대-발화 번역 시스템에서 가장 큰 속도-제한 요소는 발화 인식 알고리즘이고, 그들이 많은 어쿠스틱 가설 및 발화 신호의 많은 시간 조각에 걸쳐 검색을 수행한다. 알고리즘 검색의 속도는 어쿠스틱 모델의 크기에 지배적으로 영향 받는다. 클라이언트 컴퓨팅 장치(12)에서 발화-대-발화 번역을 수행할 때 오프라인 시스템의 속도를 유지하기 위하여, 몇몇 기술이 사용될 수 있다. 예를 들어, 일실시예에서, 모델의 크기에 의존하여, 요구된 거리를 계산하는 대신 룩업 테이블이 모델과 입력 발화 간의 마할라노비스 거리(Mahalanobis distances)를 계산하는데 사용될 수 있다. 나아가, 가우시안 선택 기술이 오프라인 모드에서 평가를 위해 필요한 모델 파라미터의 전체 양을 감소시킬 수 있다. 도 6과 관련하여 상술한 바와 같이, 사용자 특정 정보가 사용 가능하자마자, 작고, 보다 효율적인 사용자 특정 모델이 대신 사용될 수 있다.

나아가, 다양한 실시예에 따르면, 온라인 모드 도중, 백-엔드 발화 번역 시스템(16)이 복수의 발화 인식 및 번역 엔진(모듈)을 사용하고 결합할 수 있다. 이들 백엔드 엔진은 동일한 발화 번역 공급자에게서 공급될 수 있고 동일한 서버에서 실행될 수 있고, 예를 들어, 다른 실시예에서는 세 분리된 독립적 백-엔드 발화 번역 시스템(16)을 도시하는 도 8의 예시에 도시된 바와 같이 상이한 위치의 독립적인 발화 번역 공급자로부터 공급될 수 있으며, 다른 실시예에선 더 적거나 많은 백-엔드 발화 번역 시스템(16)이 사용될 수 있다. 이러한 실시예에서, 각 발화 번역 시스템(16)이 인터넷(15)를 통해 동시에 번역을 수행하기 위해 요구될 수 있다. 이러한 실시예에서, 백-엔드 발화 번역 시스템(16)이 통신하고(예컨대, 인터넷(15)를 통하여) 백-엔드 발화 번역 시스템(16) 중 하나가 보다 좋은 번역을 선택하거나 그들을 결합할 수 있다. 복수의 시스템/번역 간에서 및/또는 시스템 조합을 어떻게 가중치를 줄 것인지 결정하기 위하여, ASR의 자신감 척도와 MT의 자신감 척도가 사용될 수 있다. 이러한 자신감 척도는 ASR 또는 MT 가설의 신뢰도를 결정하기 위해 사용된다. 만약 둘 이상의 ASR 또는 MT 엔진이 그러한 실시예에서 결합되면, ASR 출력을 결합하는 방법 "ROVER"(예컨대 J. G. Fiscus, "A post-processing system to yield reduced error word rates: Recognizer output voting error reduction (ROVER)," IEEE Workshop on Automatic Speech Recognition and Understanding, pp. 347-354, 1997 참조), 한 시스템의 다른 시스템에 대한 교차-적응, 또는 MT 시스템 결합 기술(예컨대 Rosti et al., "Combining Outputs from Multiple Machine Translation Systems," Proc. Of NAACL HLT, pp. 228-235, 2007 및 K. Heafield et al., "Combining Machine Translation Output with Open Source," Prague Bulletin of Mathematical Linguistics, No. 93, pp. 27-36, 2010 참조)과 같은 시스템 조합이 사용될 수 있다. 이러한 실시예에서, 선택되고 결합된 가설은 백-엔드에서 사용자를 위한 최선의 출력을 생성하기 위하여 경쟁할 수 있다. 한번 온라인 모드에서 수행되면, 시스템은 오프라인 시스템에서 도입을 위해 이 방식으로 도달한 최선의 선택을 기억할 것이다. 오프라인 시스템의 학습을 위하여, 결합된 온라인 시스템(16)이 메모리에서 복수의 ASR 엔진의 인식 가설 및/또는 MT 엔진의 번역 가설을 제한하고 조합 또는 이들 가설 중 보다 좋은 것을 사용하여 새 오프라인 시스템을 적응 또는 훈련시킨다. 이러한 재훈련 또는 적응된 시스템은 무선 네트워크가 사용 가능할 때 오프라인 시스템에서 순차적으로 교체될 수 있다.

그러므로, 한 일반적인 측면에서, 본 발명은 하이브리드, 오프라인 및 온라인 발화 번역을 위한 발화 번역 시스템 및 방법을 가리킨다. 다양한 실시예에 따르면, 시스템은 백-엔드 발화 번역 서버 시스템 및 백-엔드 발화 번역 서버 시스템과 무선 네트워크를 통해 통신하도록 구성된 클라이언트 컴퓨팅 장치를 포함할 수 있다. 클라이언트 컴퓨팅 장치는 마이크, 마이크와 연결된 프로세서, 프로세서와 연결되고 프로세서에 의해 실행되는 명령어를 저장하는 메모리, 프로세서와 연결된 스피커를 포함할 수 있다. 클라이언트 컴퓨팅 장치는 번역할 입력 단어 구절(예컨대 음성 발화 또는 텍스트 입력)의 제1 언어로부터 제2 언어로의 번역을 예컨대 스피커 또는 텍스트 디스플레이 필드를 통해 출력하기 위한 것이다. 메모리는 제1 구동 모드(오프라인 모드)에서, 프로세서가 명령어를 실행할 때, 출력하기 위하여 프로세서가 입력 단어 구절을 제2 언어로 번역한다. 제2 구동 모드(온라인 모드)에서: (i) 클라이언트 컴퓨팅 장치가 백-엔드 발화 번역 서버 시스템으로 무선 네트워크를 통하여 제1 언어로 마이크로부터 수신한 입력 단어 구절에 관한 데이터를 전송하고; (ii) 백-엔드 발화 번역 서버 시스템은 제1 언어의 입력 단어 구절의 제2 언어로의 번역을 무선 네트워크를 통하여 클라이언트 컴퓨팅 장치로부터 수신한 데이터에 기반하여 결정하고; 및 (iii) 백-엔드 발화 번역 시스템은 제1 언어의 음성 발화의 제2 언어로의 번역에 관한 데이터를 클라이언트 컴퓨팅 장치로 무선 네트워크를 통하여 전송하여 클라이언트 컴퓨팅 장치가 제1 언어의 입력 단어 구절의 제2 언어로의 번역을 출력하도록 하는 명령어를 저장한다.

다양한 실시예에 따르면, 클라이언트 컴퓨팅 장치는 사용자가 제1 구동 모드 및 제2 구동 모드 간에서 스위치하도록 하는 사용자 인터페이스를 가진다. 대안적으로, 클라이언트 컴퓨팅 장치가 연결 또는 클라이언트 컴퓨팅 장치의 사용자의 사용자 선호 설정에 기반하여 자동으로 제1 구동 모드 또는 제2 구동 모드를 사용할 것인지 여부를 선택한다. 나아가, 클라이언트 컴퓨팅 장치는 메모리에 제1 구동 모드에서 제1 언어의 음성 발화를 인식하고 스피커를 통해 출력하기 위하여 인식된 음성 발화를 제2 언어로 번역하기 위한 로컬 어쿠스틱 모델, 로컬 언어 모델, 로컬 번역 모델 및 로컬 발화 합성 모델을 저장할 수 있다. 또한, 백-엔드 발화 번역 서버 시스템은 제2 구동 모드에서 제1 언어의 음성 발화의 제2 언어로의 번역을 무선 네트워크를 통하여 클라이언트 컴퓨팅 장치로부터 수신한 데이터에 기반하여 결정하기 위한 백-엔드 어쿠스틱 모델, 백-엔드 언어 모델, 백-엔드 번역모델 및 백-엔드 발화 합성 모델을 포함한다. 로컬 모델들은 백-엔드 어쿠스틱 모델들과는 상이하다(예컨대, 서브셋 또는 다른 변형).

나아가, 백-엔드 발화 번역 서버 시스템은: (i) 클라이언트 컴퓨팅 장치로부터 제1 언어에서 제2 언어로의 번역을 위해 수신한 음성 발화를 시간에 걸쳐 모니터링하고; 및 (ii) 클라이언트 컴퓨팅 장치의 로컬 어쿠스틱 모델, 로컬 언어 모델, 로컬 번역 모델 및 로컬 발화 합성 모델 중 적어도 하나를 클라이언트 장치로부터 제1 언어에서 제2 언어로의 번역을 위해 수신한 음성 발화의 시간에 걸친 모니터링에 기반하여 업데이트한다. 클라이언트 컴퓨팅 장치는 클라이언트 컴퓨팅 장치의 위치를 결정하기 위한 GPS 시스템을 포함할 수 있다. 이러한 실시예에서, 백-엔드 발화 번역 서버 시스템은 클라이언트 컴퓨팅 장치의 로컬 어쿠스틱 모델, 로컬 언어 모델, 로컬 번역 모델 및 로컬 발화 합성 모델 중 적어도 하나를 클라이언트 컴퓨팅 장치의 위치에 기반하여 업데이트하도록 프로그래밍될 수 있다. 클라이언트 컴퓨팅 장치의 로컬 모델들 중 적어도 하나의 임의의 업데이트는 백-엔드 발화 번역 서버 시스템으로부터 클라이언트 컴퓨팅 장치로 무선 네트워크를 통하여 전송될 수 있다.

나아가, 클라이언트 컴퓨팅 장치는 제1 및 제2 언어를 포함하는 언어 번역 쌍을 위한 애플리케이션 소프트웨어(모델을 포함하여)를 특히 클라이언트 컴퓨팅 장치 및 백-엔드 발화 번역 서버 시스템 간의 적절한 연결이 무선 네트워크를 통해 사용 가능할 때 다운로드하도록 구성될 수 있다. 또한, 클라이언트 컴퓨팅 장치가 GPS 시스템을 포함하는 실시예에서, 클라이언트 컴퓨팅 장치가 클라이언트 컴퓨팅 장치의 결정된 위치에 기반하여 클라이언트 컴퓨팅 장치 및 백-엔드 발화 번역 서버 시스템이 무선 네트워크를 통해 사용 가능할 때 언어 번역 쌍을 위한 애플리케이션 소프트웨어를 다운로드하도록 구성될 수 있다.

나아가, 클라이언트 컴퓨팅 장치는 동시에 디스플레이되는 제1 언어 디스플레이 영역 및 제2 언어 디스플레이 영역을 가지는 그래픽 사용자 인터페이스를 포함할 수 있다. 각 제1 및 제2 언어 디스플레이 영역은 사용자-접근가능한 복수의 언어의 목록을 포함할 수 있어, 클라이언트 컴퓨팅 장치의 사용자가 제1 언어 디스플레이 영역의 목록에서 제1 언어를 선택하고 제2 언어 디스플레이 영역에서 제2 언어를 선택하고, 그럼으로써 클라이언트 컴퓨팅 장치가 입력 음성 발화를 제1 언어에서 제2 언어로 번역하도록 구성될 수 있다. 제1 (오프라인) 구동 모드에서 사용 가능한 언어는 제1 및 제2 언어 디스플레이 영역에서 제1 구동 모드에서 사용 불가능한 언어와는 다르게 지정될 수 있다.

나아가, 다양한 실시예에서, 백-엔드 발화 번역 서버 시스템은 복수의 백-엔드발화 번역 시스템 중 하나이고, 클라이언트 컴퓨팅 장치는 복수의 백-엔드 발화 번역 서버 시스템 각각과 무선 네트워크를 통하여 통신하도록 구성된다. 제2(온라인) 구동 모드에서: 복수의 백-엔드 발화 번역 서버 시스템 각각은 제1 언어의 입력 단어 구절의 제2 언어로의 번역을 무선 네트워크를 통하여 클라이언트 컴퓨팅 장치로부터 수신한 데이터에 기반하여 결정한다. 이러한 환경에서, 복수의 백-엔드 발화 번역 서버 시스템 중 하나는 클라이언트 컴퓨팅 장치로 전송하기 위하여 복수의 백-엔드 발화 번역 서버 시스템으로부터의 번역 중 하나를 선택하거나, 복수의 백-엔드 발화 번역 서버 시스템 중 둘 이상의 번역이 결합되어 클라이언트 컴퓨팅 장치로 전송하기 위하여 결합된 번역을 생성한다.

일반적인 측면에서, 발화 번역 방법은 제1(오프라인) 구동 모드에서: (i) 클라이언트 컴퓨팅 장치에 의하여 제1 언어의 제1 입력 단어 구절을 수신하는 단계; (ii) 클라이언트 컴퓨팅 장치에 의하여 제1 입력 단어 구절을 제2 언어로 번역하는 단계; (iii) 클라이언트 컴퓨팅 장치에 의하여 제1 음성 발화를 제2 언어로 출력하는 단계(예컨대, 스피커를 통하여 청각적으로 및/또는 텍스트 디스플레이 필드를 통하여 시각적으로)를 포함한다. 방법은 클라이언트 컴퓨팅 장치에 의하여 제1 구동 모드에서 제2 구동 모드로 이행하는 단계, 그 후 제2(온라인) 구동 모드에서: (iv) 클라이언트 컴퓨팅 장치에 의하여 제1 언어의 제2 입력 단어 구절을 수신하는 단계; (v) 클라이언트 컴퓨팅 장치에 의하여, 무선 네트워크를 통하여, 제2 입력 단어 구절에 관한 데이터를 백-엔드 발화 번역 서버 시스템으로 전송하는 단계; 및 클라이언트 컴퓨팅 장치에 의하여, 백-엔드 발화 번역 서버 시스템으로부터 무선 네트워크를 통하여, 백-엔드 발화 번역 서버 시스템에 의한 제2 입력 단어 구절의 제1 언어로부터 제2 언어로의 번역에 관한 데이터를 수신하는 단계; 및 클라이언트 컴퓨팅 장치에 의하여 제2 언어의 제2 입력 단어 구절을 출력하는 단계를 더 포함한다.

본 명세서에 기술된 적어도 일부의 실시예는 소프트웨어, 펌웨어 및/또는 하드웨어의 많은 다른 실시예들로 구현될 수 있음이 당업자에게 명백할 것이다. 소프트웨어 및 펌웨어 코드는 프로세서 회로 또는 임의의 다른 유사한 컴퓨팅 장치에 의해 실행될 수 있다. 실시예들을 구현하는데 사용될 수 있는 소프트웨어 코드 또는 특화된 제어 하드웨어는 제한이 없다. 예컨대, 본 명세서에 기술된 실시예는 가령 종래의 기술 또는 객체-지향 기술을 사용하여, 임의의 적절한 컴퓨터 소프트웨어 언어 타입을 사용하는 컴퓨터 소프트웨어로 구현될 수 있다. 이런 소프트웨어는 예컨대 자기 저장매체나 광학 저장매체와 같은 임의의 타입의 적절한 컴퓨터-판독가능한 매체나 매체들에 저장될 수 있다. 실시예들의 동작이나 행동은 특정 소프트웨어 코드나 특화된 하드웨어 컴포넌트의 특정한 언급 없이도 기술될 수 있다. 당업자가 더 이상의 합리적인 노력 없이 그리고 과도한 실험 없이 본 설명을 기초로 실시예들을 구현하도록 소프트웨어 및 제어 하드웨어를 설계할 수 있음이 명백히 이해되기 때문에, 이런 특정한 언급이 기술되지 않을 수 있다.

게다가, 본 실시예들과 관련된 프로세스는 가령 컴퓨터나 컴퓨터 시스템, 모바일 장치, 스마트폰 및/또는 프로세서와 같은 프로그램가능한 기기로 실행될 수 있다. 프로그램가능한 기기가 프로세스를 실행하도록 할 수 있는 소프트웨어는 예컨대 컴퓨터 시스템 (비휘발성) 메모리, RAM, ROM, 플래시 메모리, 기타 등등과 같은 임의의 저장 장치에 저장될 수 있다. 게다가, 적어도 일부의 프로세스는 컴퓨터 시스템이 제조되거나 다양한 타입의 컴퓨터-판독가능한 매체에 저장될 때 프로그램화될 수 있다.

"컴퓨터", "컴퓨터 시스템", "호스트", "서버" 또는 "프로세서"는 예로서 제한 없이, 프로세서, 마이크로컴퓨터, 미니컴퓨터, 서버, 메인프레임, 랩톱, 개인용 정보 단말기(PDA), 무선 이메일 장치, 셀룰러폰, 스마트폰, 태블릿, 모바일 장치, 페이저, 프로세서, 팩스 머신, 스캐너 또는 네트워크를 통해 데이터를 송신 및/또는 수신하도록 구성된 임의의 다른 프로그램가능한 장치일 수 있다. 본 명세서에 개시된 컴퓨터 시스템 및 컴퓨터-기반 장치는 정보를 획득, 처리 및 통신하는데 사용되는 특정 소프트웨어 모듈이나 엔진을 저장하기 위한 메모리를 포함할 수 있다. 이런 메모리는 개시된 실시예들의 동작에 대해 내부 또는 외부에 있을 수 있음이 이해될 수 있다. 또한, 메모리는 하드 디스크, 광학 디스크, 플로피 디스크, ROM(read only memory), RAM(random access memory), PROM(programmable ROM), EEPROM(electrically erasable PROM) 및/또는 다른 컴퓨터-판독가능한 매체를 포함하는 소프트웨어 저장용 임의의 수단을 포함할 수 있다. 본 명세서에 기술된 소프트웨어 모듈 및 엔진은 모듈들을 저장하는 메모리에 접속하는 컴퓨터 장치의 프로세서(또는 경우에 따라 프로세서들)에 의해 실행될 수 있다.

본 명세서에 개시된 다양한 실시예로, 단일의 컴포넌트가 다수의 컴포넌트로 대체될 수 있고 다수의 컴포넌트는 소정의 기능이나 기능들을 수행하는 단일의 컴포넌트로 대체될 수 있다. 이런 대체가 작동될 수 없는 경우 이외에, 이런 대체는 실시예들의 의도된 범위 내에 있다. 본 명세서에 기술된 임의의 서버는 예컨대 협력 기능들이 위치되고 설정되는 "서버 팜(server farm)" 또는 (가령 서버 블래이드(server blades)와 같은) 네트워크형 서버의 다른 그룹화로 대체될 수 있다. 서버 팜은 팜의 개별 컴포넌트들 사이에 작업량을 분배하는 역할을 할 수 있고 다수의 서버의 공동의 협력적인 능력을 활용하여 컴퓨팅 프로세서를 신속히 처리할 수 있음이 이해될 수 있다. 이런 서버 팜은 예컨대 다른 기계들로부터의 능력을 처리기 위한 수요를 추적하기, 네트워크 수요를 기초로 업무를 순위화하고 스케쥴링하기 및/또는 컴포넌트 고장이나 동작성의 감소시 비상 백업을 제공하기와 같은 업무들을 수행하는 부하-균등 소프트웨어(load-balancing software)를 이용할 수 있다.

다양한 실시예들이 본 명세서에 기술되었지만, 이런 실시예들에 대한 다양한 변경, 변형 및 개조가 적어도 일부의 이점을 성취하도록 당업자에 의해 이루어질 수 있음이 명백해야 한다. 따라서, 개시된 실시예들은 본 명세서에 제시되는 바와 같은 실시예들의 범위를 벗어남이 없는 이런 모든 변경, 변형 및 개조를 포함하도록 의도된다.

Claims

백-엔드 발화 번역 서버 시스템; 및
백-엔드 발화 번역 서버 시스템과 무선 네트워크를 통해 통신하도룩 구성된 클라이언트 컴퓨팅 장치를 포함하는 발화 번역 시스템으로서, 클라이언트 컴퓨팅 장치는:
마이크;
마이크와 연결된 프로세서;
프로세서와 연결되고 프로세서에 의해 실행되는 명령어를 저장하는 메모리; 및
프로세서와 연결된 스피커를 포함하고,
클라이언트 컴퓨팅 장치는 입력 단어 구절의 제1 언어로부터 제2 언어로의 번역을 스피커를 통해 출력하기 위한 것이고; 및
메모리는:
제1 구동 모드에서, 프로세서가 명령어를 실행할 때, 사용자에게 출력하기 위하여 프로세서가 입력 단어 구절을 제2 언어로 번역하고; 및
제2 구동 모드에서:
클라이언트 컴퓨팅 장치가 백-엔드 발화 번역 서버 시스템으로 무선 네트워크를 통하여 제1 언어로 클라이언트 컴퓨팅 장치로부터 수신한 입력 단어 구절에 관한 데이터를 전송하고;
백-엔드 발화 번역 서버 시스템은 제1 언어의 입력 단어 구절의 제2 언어로의 번역을 무선 네트워크를 통하여 클라이언트 컴퓨팅 장치로부터 수신한 데이터에 기반하여 결정하고; 및
백-엔드 발화 번역 시스템은 제1 언어의 입력 단어 구절의 제2 언어로의 번역에 관한 데이터를 클라이언트 컴퓨팅 장치로 무선 네트워크를 통하여 전송하여 클라이언트 컴퓨팅 장치가 제1 언어의 입력 단어 구절의 제2 언어로의 번역을 출력하도록 하는 명령어를 저장하고;
클라이언트 컴퓨팅 장치는 사용자가 제1 구동 모드 및 제2 구동 모드 간에서 스위치하도록 하는 사용자 인터페이스를 가지고 및/또는
클라이언트 컴퓨팅 장치가 무선 네트워크의 연결 상태 또는 클라이언트 컴퓨팅 장치의 사용자의 사용자 선호 설정에 기반하여 자동으로 제1 구동 모드 또는 제2 구동 모드를 사용할 것인지 여부를 선택하는 발화 번역 시스템.
청구항 1에 있어서,
입력 단어 구절은 클라이언트 컴퓨팅에:
클라이언트 컴퓨팅 장치의 마이크에 의해 캡처된 입력 음성 발화; 또는 클라이언트 컴퓨팅 장치의 사용자 인터페이스의 텍스트 입력 필드를 통한 텍스트 입력 중 하나를 통해 입력되는 발화 번역 시스템.
청구항 1 또는 2에 있어서,
클라이언트 컴퓨팅 장치는 번역을 스피커를 통해 청각적으로 출력하는 발화 번역 시스템.
청구항 1 내지 청구항 3 중 어느 하나의 항에 있어서,
클라이언트 컴퓨팅 장치는 메모리에 제1 구동 모드에서 제1 언어의 음성 발화를 인식하고 클라이언트 컴퓨팅 장치의 스피커를 통해 출력하기 위하여 인식된 음성 발화를 제2 언어로 번역하기 위한 로컬 어쿠스틱 모델, 로컬 언어 모델, 로컬 번역 모델 및 로컬 발화 합성 모델을 저장하고;
백-엔드 발화 번역 서버 시스템은 제2 구동 모드에서 제1 언어의 음성 발화의 제2 언어로의 번역을 무선 네트워크를 통하여 클라이언트 컴퓨팅 장치로부터 수신한 데이터에 기반하여 결정하기 위한 백-엔드 어쿠스틱 모델, 백-엔드 언어 모델, 백-엔드 번역모델 및 백-엔드 발화 합성 모델을 포함하고;
로컬 어쿠스틱 모델은 백-엔드 어쿠스틱 모델과는 상이하고;
로컬 언어 모델은 백-엔드 언어 모델과는 상이하고;
로컬 번역 모델은 백-엔드 번역 모델과는 상이하고; 및
로컬 발화 합성 모델은 백-엔드 발화 합성 모델과는 상이한 발화 번역 시스템.
청구항 1 내지 청구항 4 중 어느 하나의 항에 있어서,
백-엔드 발화 번역 서버 시스템은:
클라이언트 컴퓨팅 장치로부터 제1 언어에서 제2 언어로의 번역을 위해 수신한 음성 발화를 시간에 걸쳐 모니터링하고; 및
클라이언트 컴퓨팅 장치의 로컬 어쿠스틱 모델, 로컬 언어 모델, 로컬 번역 모델 및 로컬 발화 합성 모델 중 적어도 하나를 클라이언트 장치로부터 제1 언어에서 제2 언어로의 번역을 위해 수신한 음성 발화의 시간에 걸친 모니터링에 기반하여 업데이트하고, 클라이언트 컴퓨팅 장치의 로컬 어쿠스틱 모델, 로컬 언어 모델, 로컬 번역 모델 및 로컬 발화 합성 모델 중 적어도 하나의 업데이트는 백-엔드 발화 번역 서버 시스템으로부터 클라이언트 컴퓨팅 장치로 무선 네트워크를 통해 전송되도록 프로그래밍된 발화 번역 시스템.
청구항 1 내지 청구항 5 중 어느 하나의 항에 있어서,
클라이언트 컴퓨팅 장치의 로컬 어쿠스틱 모델, 로컬 언어 모델, 로컬 번역 모델 및 로컬 발화 합성 모델은 사용자에 의한 번역 질의의 분석에 기반하여 업데이트되는 발화 번역 시스템.
청구항 1 내지 청구항 6 중 어느 하나의 항에 있어서,
클라이언트 컴퓨팅 장치는 클라이언트 컴퓨팅 장치의 위치를 결정하기 위한 GPS 시스템을 포함하고; 및
백-엔드 발화 번역 서버 시스템은 클라이언트 컴퓨팅 장치의 로컬 어쿠스틱 모델, 로컬 언어 모델, 로컬 번역 모델 및 로컬 발화 합성 모델 중 적어도 하나를 클라이언트 컴퓨팅 장치의 위치에 기반하여 업데이트하도록 프로그래밍되고, 클라이언트 컴퓨팅 장치의 로컬 어쿠스틱 모델, 로컬 언어 모델, 로컬 번역 모델 및 로컬 발화 합성 모델 중 적어도 하나의 업데이트는 백-엔드 발화 번역 서버 시스템으로부터 클라이언트 컴퓨팅 장치로 무선 네트워크를 통하여 전송되는 발화 번역 시스템.
청구항 1 내지 청구항 7 중 어느 하나의 항에 있어서,
백-엔드 발화 번역 서버 시스템은 복수의 백-엔드발화 번역 시스템 중 하나이고, 클라이언트 컴퓨팅 장치는 복수의 백-엔드 발화 번역 서버 시스템 각각과 무선 네트워크를 통하여 통신하도록 구성되고; 및
제2 구동 모드에서:
복수의 백-엔드 발화 번역 서버 시스템 각각은 제1 언어의 입력 단어 구절의 제2 언어로의 번역을 무선 네트워크를 통하여 클라이언트 컴퓨팅 장치로부터 수신한 데이터에 기반하여 결정하기 위한 것이고; 및
복수의 백-엔드 발화 번역 서버 시스템 중 하나는 클라이언트 컴퓨팅 장치로 전송하기 위하여 복수의 백-엔드 발화 번역 서버 시스템으로부터의 번역 중 하나를 선택하거나
복수의 백-엔드 발화 번역 서버 시스템 중 둘 이상의 번역을 결합하여 클라이언트 컴퓨팅 장치로 전송하기 위하여 결합된 번역을 생성하는 발화 번역 시스템.
제1 구동 모드에서:
클라이언트 컴퓨팅 장치에 의하여 제1 언어의 제1 입력 단어 구절을 수신하는 단계;
클라이언트 컴퓨팅 장치에 의하여 제1 입력 단어 구절을 제2 언어로 번역하는 단계;
클라이언트 컴퓨팅 장치에 의하여 제1 입력 단어 구절을 제2 언어로 출력하는 단계;
클라이언트 컴퓨팅 장치에 의하여 제1 구동 모드에서 제2 구동 모드로 이행하는 단계;
제2 구동 모드에서:
클라이언트 컴퓨팅 장치에 의하여 제1 언어의 제2 입력 단어 구절을 수신하는 단계;
클라이언트 컴퓨팅 장치에 의하여, 무선 네트워크를 통하여, 제2 입력 단어 구절에 관한 데이터를 백-엔드 발화 번역 서버 시스템으로 전송하는 단계;
클라이언트 컴퓨팅 장치에 의하여, 백-엔드 발화 번역 서버 시스템으로부터 무선 네트워크를 통하여, 백-엔드 발화 번역 서버 시스템에 의한 제2 입력 단어 구절의 제1 언어로부터 제2 언어로의 번역에 관한 데이터를 수신하는 단계; 및
클라이언트 컴퓨팅 장치에 의하여 제2 언어의 제2 입력 단어 구절을 출력하는 단계를 포함하는 발화 번역 방법.
청구항 9에 있어서,
클라이언트 컴퓨팅 장치는 메모리에 제1 구동 모드에서 제1 언어의 음성 발화를 인식하고 스피커를 통해 출력하기 위하여 인식된 음성 발화를 제2 언어로 번역하기 위한 로컬 어쿠스틱 모델, 로컬 언어 모델, 로컬 번역 모델 및 로컬 발화 합성 모델을 저장하고;
백-엔드 발화 번역 서버 시스템은 제2 구동 모드에서 제1 언어의 음성 발화의 제2 언어로의 번역을 무선 네트워크를 통하여 클라이언트 컴퓨팅 장치로부터 수신한 데이터에 기반하여 결정하기 위한 백-엔드 어쿠스틱 모델, 백-엔드 언어 모델, 백-엔드 번역모델 및 백-엔드 발화 합성 모델을 포함하고;
상기 방법은
백-엔드 발화 번역 서버 시스템에 의하여, 클라이언트 컴퓨팅 장치로부터 제1 언어에서 제2 언어로의 번역을 위해 수신한 음성 발화를 시간에 걸쳐 모니터링하는 단계; 및
백-엔드 발화 번역 서버 시스템에 의하여, 클라이언트 컴퓨팅 장치의 로컬 어쿠스틱 모델, 로컬 언어 모델, 로컬 번역 모델 및 로컬 발화 합성 모델 중 적어도 하나를 클라이언트 장치로부터 제1 언어에서 제2 언어로의 번역을 위해 수신한 음성 발화의 시간에 걸친 모니터링에 기반하여 업데이트하고, 클라이언트 컴퓨팅 장치의 로컬 어쿠스틱 모델, 로컬 언어 모델, 로컬 번역 모델 및 로컬 발화 합성 모델 중 적어도 하나의 업데이트는 백-엔드 발화 번역 서버 시스템으로부터 클라이언트 컴퓨팅 장치로 무선 네트워크를 통해 전송되는, 업데이트 하는 단계를 더 포함하는 발화 번역 방법.
청구항 1 내지 청구항 10 중 어느 하나의 항에 있어서,
클라이언트 컴퓨팅 장치에 의하여 제1 및 제2 언어를 포함하는 언어 번역 쌍을 위한 애플리케이션 소프트웨어를 다운로드하는 단계를 더 포함하고,
특히
언어 번역 쌍을 위한 애플리케이션 소프트웨어를 다운로드하는 단계는
클라이언트 컴퓨팅 장치 및 백-엔드 발화 번역 서버 시스템 간 적절한 연결이 무선 네트워크를 사용 가능할 때 언어 번역 쌍을 위한 애플리케이션 소프트웨어를 다운로드하는 단계를 포함하는 발화 번역 방법.
청구항 11에 있어서,
클라이언트 컴퓨팅 장치에 의하여 클라이언트 컴퓨팅 장치의 위치를 결정하는 단계; 및
클라이언트 컴퓨팅 장치에 의하여 클라이언트 컴퓨팅 장치의 결정된 위치에 기반하여 클라이언트 컴퓨팅 장치 및 백-엔드 발화 번역 서버 시스템 간 적절한 연결이 무선 네트워크를 사용 가능할 때 언어 번역 쌍을 위한 애플리케이션 소프트웨어를 다운로드하는 단계를 더 포함하는 발화 번역 방법.
청구항 9 내지 청구항 12 중 어느 하나의 항에 있어서,
클라이언트 컴퓨팅 장치는 동시에 디스플레이되는 제1 언어 디스플레이 영역 및 제2 언어 디스플레이 영역을 가지는 그래픽 사용자 인터페이스를 포함하고; 및
제1 및 제2 언어 디스플레이 영역 각각은 사용자-접근가능한 복수의 언어의 목록을 포함하고, 및
상기 방법은 클라이언트 컴퓨팅 장치에 의하여 그래픽 사용자 인터페이스를 통하여 제1 언어 디스플레이 영역의 목록의 제1 언어의 선택 및 제2 언어 디스플레이 영역의 제2 언어의 선택을 수신하는 단계를 더 포함하여, 그럼으로써 클라이언트 컴퓨팅 장치가 입력 음성 발화를 제1 언어에서 제2 언어로 번역하도록 구성되는 발화 번역 방법.
청구항 13에 있어서,
제1 구동 모드에서 사용 가능한 언어는 그래픽 사용자 인터페이스의 제1 및 제2 언어 디스플레이 영역에서 제1 구동 모드에서 사용 불가능한 언어와 시각적으로 다르게 지정되는 발화 번역 방법.
청구항 9 내지 14 중 어느 하나의 항에 있어서,
클라이언트 컴퓨팅 장치에 의한 제1 구동 모드에서 제2 구동 모드로의 이행은 클라이언트 컴퓨팅 장치의 사용자 인터페이스를 통한 제1 모드에서 제2 모드로의 이행 하는 입력에 응답하는 것인 발화 번역 방법.