KR20170010843A

KR20170010843A - 이미지로부터의 비-텍스트 맥락 정보에 근거하여 이미지로부터의 텍스트에 대해 기계 언어 번역을 하기 위한 기법

Info

Publication number: KR20170010843A
Application number: KR1020167036222A
Authority: KR
Inventors: 아르네 모제르; 알렉산더 제이 커스버트; 존 스터디 드니로
Original assignee: 구글 인코포레이티드
Priority date: 2014-06-24
Filing date: 2015-06-19
Publication date: 2017-02-01
Also published as: US9436682B2; US20150370785A1; EP3161667A2; KR101889052B1; CN106462574A; CN106462574B; WO2015200110A3; WO2015200110A2; US20160371256A1

Abstract

컴퓨터로 구현되는 기법이 개시되며, 이러한 기법은, 텍스트를 포함하는 이미지를 모바일 컴퓨팅 디바이스로부터 서버에서 수신하는 것을 포함할 수 있고, 서버는 하나 이상의 프로세서들을 갖는다. 이러한 기법은, 서버에서, 텍스트에 대응하는 광학 문자 인식(OCR) 텍스트를 획득하는 것을 포함할 수 있고, OCR 텍스트는 이미지에 관해 OCR을 수행함으로써 획득된 것이다. 이러한 기법은, 서버에서, 이미지로부터 비-텍스트 맥락 정보를 식별하는 것을 포함할 수 있고, 비-텍스트 맥락 정보는 (i) 텍스트 자체와는 다른 맥락 정보를 나타내고 아울러 (ii) 이미지의 맥락을 표시한다. 이러한 기법은, 서버에서, 비-텍스트 맥락 정보에 근거하여 OCR 텍스트를 타겟 언어로 번역한 번역물을 획득하여, 번역된 OCR 텍스트를 획득하는 것을 포함할 수 있다. 이러한 기법은, 번역된 OCR 텍스트를 서버로부터 모바일 컴퓨팅 디바이스로 출력하는 것을 포함할 수 있다.

Description

이미지로부터의 비-텍스트 맥락 정보에 근거하여 이미지로부터의 텍스트에 대해 기계 언어 번역을 하기 위한 기법{TECHNIQUES FOR MACHINE LANGUAGE TRANSLATION OF TEXT FROM AN IMAGE BASED ON NON-TEXTUAL CONTEXT INFORMATION FROM THE IMAGE}

관련 출원에 대한 상호-참조

본 출원은 2014년 6월 24일 자로 출원된 미국 특허 출원 번호 제14/313,670호에 대한 우선권을 주장한다. 앞서의 출원의 개시내용은 그 전체가 참조고 본 명세서에 통합된다.

본 개시내용은 일반적으로 광학 문자 인식(Optical Character Recognition, OCR) 및 기계 언어 번역(machine language translation)에 관한 것이고, 보다 구체적으로는 이미지(image)로부터의 비-텍스트 맥락 정보(non-textual context information)에 근거하여 이미지로부터의 OCR 텍스트에 대해 기계 언어 번역을 하기 위한 기법에 관한 것이다.

본 명세서에서 제공되는 배경기술은 본 개시내용의 배경상황을 전반적으로 제시하기 위한 것이다. 현재 본 발명의 발명자로 명명된 사람들이 행한 작업은, 이것이 본 배경기술 부분에서 설명되는 한, 뿐만 아니라 (만약 본 배경기술 부분에서 설명되지 않은 경우 본 출원의 출원시 종래 기술로서의 자격이 없을 수 있는) 여러 양상의 설명으로 제공되는 한, 본 개시내용에 대한 종래 기술로서 명백하게 인정되는 것이 아니며 암시적으로 인정되는 것도 아니다.

광학 문자 인식(OCR)은 컴퓨팅 디바이스(computing device)(예를 들어, 서버(server))를 사용하여 이미지(image) 내의 텍스트(text)를 검출하는 것을 포함한다. OCR은 예를 들어, 사용자에 의해 사용자 디바이스에 텍스트를 수동으로 입력하는 것과 비교하여, 사용자 디바이스에서 디지털 형태로 텍스트를 획득하는 더 빠른 방법을 제공할 수 있다. 이미지 내의 텍스트를 획득한 이후, 텍스트는 다양한 방식들로 이용될 수 있다. 예를 들어, 텍스트는 컴퓨팅 디바이스에 의해 프로세싱될 수 있고, 메모리에 저장될 수 있고, 그리고/또는 또 하나의 다른 컴퓨팅 디바이스로 전송될 수 있다. 텍스트를 프로세싱하는 하나의 예는 기계 언어 번역이고, 이러한 기계 언어 번역은 컴퓨팅 디바이스를 사용하여 텍스트를 소스 언어(source language)로부터 임의의 다른 타겟 언어(target language)로 번역하는 것을 포함한다.

일 실시형태에서, 컴퓨터로 구현되는 기법이 제시된다. 이러한 기법은 텍스트를 포함하는 이미지를 모바일 컴퓨팅 디바이스(mobile computing device)로부터 서버에서 수신하는 것을 포함할 수 있고, 여기서 서버는 하나 이상의 프로세서들을 갖고 있다. 이러한 기법은, 서버에서, 텍스트에 대응하는 광학 문자 인식(OCR) 텍스트를 획득하는 것을 포함할 수 있고, 여기서 OCR 텍스트는 이미지에 관해 OCR을 수행함으로써 획득된 것이다. 이러한 기법은, 서버에서, 이미지로부터 비-텍스트 맥락 정보(non-textual context information)를 식별하는 것을 포함할 수 있고, 여기서 비-텍스트 맥락 정보는 (i) 텍스트 자체와는 다른 맥락 정보를 나타내고 아울러 (ii) 이미지의 맥락을 표시한다. 이러한 기법은, 서버에서, 비-텍스트 맥락 정보를 근거로 OCR 텍스트를 타겟 언어로 번역한 번역물을 획득하여, 번역된 OCR 텍스트를 획득하는 것을 포함할 수 있다. 이러한 기법은 또한, 번역된 OCR 텍스트를 서버로부터 모바일 컴퓨팅 디바이스로 출력하는 것을 포함할 수 있다.

일부 실시예들에서, 이러한 기법은 또한, 서버에서, OCR 텍스트를 타겟 언어로 번역한 번역물을 획득하여, 초벌 번역된 OCR 텍스트(baseline translated OCR text)를 획득하는 것; 그리고 서버에서, 초벌 번역된 OCR 텍스트를 비-텍스트 맥락 정보에 근거하여 조정하여, 번역된 OCR 텍스트를 획득하는 것을 포함한다.

다른 실시예들에서, 이러한 기법은 또한, 서버에서, 비-텍스트 맥락 정보에 근거하여 텍스트의 소스 언어를 결정하는 것을 포함하고, 번역된 OCR 텍스트는 또한, 이러한 소스 언어에 기반을 두고 있다.

일부 실시예들에서, 이러한 기법은 또한, 서버에서, 비-텍스트 맥락 정보에 근거하여 이미지가 포착(capture)된 위치의 유형(type)을 결정하는 것을 포함하고, 번역된 OCR 텍스트는 또한, 이러한 위치의 유형에 기반을 두고 있다.

다른 실시예들에서, 이러한 기법은 또한, 서버에서, 모바일 컴퓨팅 디바이스의 지리적-위치(geo-location)를 결정하는 것을 포함하고, 번역된 OCR 텍스트는 또한, 모바일 컴퓨팅 디바이스의 이러한 지리적-위치에 기반을 두고 있다.

일부 실시예들에서, 이러한 기법은 또한, 서버에서, 지리적-위치에 근거하여 지도 정보(map information)를 획득하는 것; 그리고 서버에서, 지도 정보를 사용하여 지리적-위치와 가까운 관심이 있는 지점(point of interest)들을 식별하는 것을 포함하고, 번역된 OCR 텍스트는 또한, 지리적-위치와 가까운 관심이 있는 지점들에 기반을 두고 있다.

다른 실시예들에서, 이러한 기법은 또한, 서버에서, 모바일 컴퓨팅 디바이스의 사용자에 대응하는 사용자 이력(user history)을 결정하는 것을 포함하고, 번역된 OCR 텍스트는 또한, 이러한 사용자 이력에 기반을 두고 있다.

일부 실시예들에서, 비-텍스트 맥락 정보는 텍스트의 글자체(font)를 포함한다. 다른 실시예들에서, 비-텍스트 맥락 정보는, (i) 이미지 내의 객체(object) 및 (ii) 이미지 내의 객체의 형상 중 적어도 하나를 포함한다.

일부 실시예들에서, 비-텍스트 맥락 정보는, 객체의 컬러(color) 중 적어도 하나를 포함하고, 이러한 기법은 또한, 서버에서, 객체의 컬러에 근거하여 이미지가 실내(indoors)에서 포착되었는지 아니면 실외(outdoors)에서 포착되었는지를 결정하는 것을 포함하고, 번역된 OCR 텍스트는 또한, 이미지가 실내에서 포착되었는지 아니면 실외에서 포착되었는지에 기반을 두고 있다.

동작들을 수행하도록 구성된 하나 이상의 프로세서들을 갖는 서버가 또한 제시된다. 이러한 동작들은 텍스트를 포함하는 이미지를 모바일 컴퓨팅 디바이스로부터 수신하는 것을 포함할 수 있다. 이러한 동작들은 텍스트에 대응하는 OCR 텍스트를 획득하는 것을 포함할 수 있고, 여기서 OCR 텍스트는 이미지에 관해 OCR을 수행함으로써 획득된 것이다. 이러한 동작들은 이미지로부터 비-텍스트 맥락 정보를 식별하는 것을 포함할 수 있고, 비-텍스트 맥락 정보는 (i) 텍스트 자체와는 다른 맥락 정보를 나타내고 아울러 (ii) 이미지의 맥락을 표시한다. 이러한 동작들은 비-텍스트 맥락 정보를 근거로 OCR 텍스트를 타겟 언어로 번역한 번역물을 획득하여, 번역된 OCR 텍스트를 획득하는 것을 포함할 수 있다. 이러한 동작들은 또한, 번역된 OCR 텍스트를 모바일 컴퓨팅 디바이스로 출력하는 것을 포함할 수 있다.

일부 실시예들에서, 이러한 동작들은 또한, OCR 텍스트를 타겟 언어로 번역한 번역물을 획득하여, 초벌 번역된 OCR 텍스트를 획득하는 것; 그리고 초벌 번역된 OCR 텍스트를 비-텍스트 맥락 정보에 근거하여 조정하여, 번역된 OCR 텍스트를 획득하는 것을 포함한다.

다른 실시예들에서, 이러한 동작들은 또한, 비-텍스트 맥락 정보에 근거하여 텍스트의 소스 언어를 결정하는 것을 포함하고, 번역된 OCR 텍스트는 또한, 이러한 소스 언어에 기반을 두고 있다.

일부 실시예들에서, 이러한 동작들은 또한, 비-텍스트 맥락 정보에 근거하여 이미지가 포착된 위치의 유형을 결정하는 것을 포함하고, 번역된 OCR 텍스트는 또한, 이러한 위치의 유형에 기반을 두고 있다.

다른 실시예들에서, 이러한 동작들은 또한, 모바일 컴퓨팅 디바이스의 지리적-위치를 결정하는 것을 포함하고, 번역된 OCR 텍스트는 또한, 모바일 컴퓨팅 디바이스의 지리적-위치에 기반을 두고 있다.

일부 실시예들에서, 이러한 동작들은 또한, 지리적-위치에 근거하여 지도 정보를 획득하는 것; 그리고 지도 정보를 사용하여 지리적-위치와 가까운 관심이 있는 지점들을 식별하는 것을 포함하고, 번역된 OCR 텍스트는 또한, 지리적-위치와 가까운 관심이 있는 지점들에 기반을 두고 있다.

다른 실시예들에서, 이러한 동작들은 또한, 모바일 컴퓨팅 디바이스의 사용자에 대응하는 사용자 이력을 결정하는 것을 포함하고, 번역된 OCR 텍스트는 또한, 이러한 사용자 이력에 기반을 두고 있다.

일부 실시예들에서, 비-텍스트 맥락 정보는 텍스트의 글자체를 포함한다. 다른 실시예들에서, 비-텍스트 맥락 정보는, (i) 이미지 내의 객체 및 (ii) 이미지 내의 객체의 형상 중 적어도 하나를 포함한다.

일부 실시예들에서, 비-텍스트 맥락 정보는, 객체의 컬러 중 적어도 하나를 포함하고, 이러한 동작들은 또한, 객체의 컬러에 근거하여 이미지가 실내에서 포착되었는지 아니면 실외에서 포착되었는지를 결정하는 것을 포함하고, 번역된 OCR 텍스트는 또한, 이미지가 실내에서 포착되었는지 아니면 실외에서 포착되었는지에 기반을 두고 있다.

본 개시내용의 다른 이용가능한 분야는 아래에서 제공되는 상세한 설명으로부터 명백하게 될 것이다. 상세한 설명 및 특정 예들은 본 개시내용의 범위를 한정할 의도로 제공되는 것이 아니고 오로지 예시적 목적을 갖도록 의도된 것임을 이해해야 한다.

본 개시내용은 상세한 설명 및 첨부되는 도면으로부터 더 완벽하게 이해되게 될 것이다.
도 1은 본 개시내용의 일부 구현예들에 따른 예시적인 서버 및 예시적인 모바일 컴퓨팅 디바이스를 포함하는 컴퓨팅 네트워크를 나타낸 도면이다.
도 2는 도 1의 예시적인 서버의 기능적 블록도이다.
도 3a 및 도 3b는 본 개시내용의 일부 구현예들에 따른 예시적인 이미지들의 쌍을 나타내며, 이들 이미지들 각각은 텍스트는 동일한 것을 갖지만 비-텍스트 맥락 정보는 서로 다른 것을 갖는다.
도 4a 및 도 4b는 본 개시내용의 일부 구현예들에 따른 또 하나의 다른 예시적인 이미지들의 쌍을 나타내며, 이들 이미지들 각각은 텍스트는 동일한 것을 갖지만 비-텍스트 맥락 정보는 서로 다른 것을 갖는다.
도 5는 본 개시내용의 일부 구현예들에 따른, 이미지로부터의 비-텍스트 맥락 정보에 근거하여 이미지로부터의 OCR 텍스트에 대해 기계 언어 번역을 하기 위한 예시적인 기법의 흐름도이다.

종래의 시스템들은 이미지로부터 광학 문자 인식(OCR) 텍스트를 획득하고, 이러한 OCR 텍스트에 대해 그 소스 언어로부터 원하는 언어로의 기계 언어 번역을 수행한다. 그러나, 일부 단어들 및/또는 어구들은 특정 언어들에서 복수의 의미들을 가질 수 있다. 이러한 복수의 의미들 각각은 특정 단어 혹은 어구의 맥락에 따라 달라질 수 있다. 예를 들어, 독일어 단어 "rind(린트)"는 "beef(소고기)" 및 "cow(소)"를 모두 의미할 수 있다. 종래의 시스템들은 OCR 텍스트 "rind"를 예를 들어, 영어로 "beef"로 번역하거나 혹은 "cow"로 번역하게 된다(이들 영어 단어들은 어느 것이든 영어에서 더 높은 사용률을 갖고 있음). 또한, 예를 들어, 영어 어구 "bear right"는 "우측(right)으로" "방향을 바꾸세요(veer)", "돌리세요(turn)", 혹은 "유지하세요(stay)"를 의미할 수도 있고, 뿐만 아니라 "곰(bear)"(동물)은 "우측(right)에 있어요"를 의미할 수도 있다. 이러한 시스템들은 이미지의 맥락을 표시할 수 있는 해당 이미지 내의 다른 정보를 고려하지 않는데, 이러한 이미지의 맥락은 올바른 의미를 결정하는데 사용될 수 있고, 따라서 올바른 번역 혹은 원하는 번역을 얻는 데 사용될 수 있다. 이에 따라, 이미지로부터의 비-텍스트 맥락 정보에 근거하여 이미지로부터의 OCR 텍스트에 대해 기계 언어 번역을 하기 위한 기법들이 제시된다.

본 명세서에서 사용되는 바와 같이, 용어 "비-텍스트 맥락 정보(non-textual context information)"는 텍스트 자체와는 다른 이미지로부터의 (이미지의 맥락을 표시하는) 임의의 정보를 지칭한다. 비-텍스트 맥락 정보는 이미지 자체로부터 추출되어 이미지의 맥락을 표시하는 정보(특징들, 객체들, 등)를 포함한다. 달리 말하면, 비-텍스트 맥락 정보는 이미지 혹은 이미지 파일과 관련된 메타데이터(metadata) 혹은 다른 속성(attribute)들과 같은 이미지에 대한 정보(예를 들어, 이미지 외부 정보)가 아니라 이미지로부터 추출되거나 혹은 도출되는 정보(예를 들어, 이미지 내부 정보)이다. 비-텍스트 맥락 정보의 예들은, 이미지의 배경(background)에 있는 특징들 혹은 객체들과 같은 형상들, 컬러들, 및 객체들을 포함한다. 비-텍스트 맥락 정보는 또한 이미지의 전경(foreground)으로부터 획득될 수 있다. 추가적으로, 비-텍스트 맥락 정보는 또한 텍스트의 글자체와 같은 텍스트 자체의 속성들을 포함할 수 있다.

본 발명의 기법들은 이러한 비-텍스트 맥락 정보를 식별할 수 있고, 그리고 이미지로부터 획득된 OCR 텍스트의 번역물을 획득하기 위해 비-텍스트 맥락 정보를 사용할 수 있다. 비-텍스트 맥락 정보는 임의의 적절한 이미지 프로세싱 및 특징/객체 검출 기법들을 사용하여 획득될 수 있다. 하나의 구현예에서, 본 발명의 기법들은 OCR 텍스트의 초벌 번역물을 획득할 수 있고, 그 다음에 비-텍스트 맥락 정보에 근거하여 초벌 번역물을 조정할지 여부를 결정할 수 있다. 이것은 또한 초벌 번역물에 대한 검증 단계를 나타낼 수 있다. 이러한 기법들을 더 증강시키기 위해 다른 정보(사용자의 모바일 컴퓨팅 디바이스의 지리적-위치, 및 사용자의 과거 행동(혹은 "사용자 이력"))가 또한 사용될 수 있다. 이러한 정보는 이미지가 포착된 위치의 유형을 표시할 수 있고, 이것은 비-텍스트 맥락 정보 식별을 증강시키기 위해 사용될 수 있다. 위치는 또한 소스 언어를 더 용이하게 식별하는데 사용될 수 있다.

본 명세서에서 논의되는 시스템들이 사용자들에 대한 개인적 정보를 수집하거나, 혹은 개인적 정보를 사용할 수 있는 상황들에서, 사용자들은 프로그램들 혹은 특징들이 사용자 정보(예를 들어, 사용자의 이력에 대한 정보(예컨대, 사용자의 소셜 네트워크, 소셜 행동들 혹은 활동들, 사용자의 직업, 및/또는 사용자의 일반적인 선호도들에 관한 사용자의 과거 행동) 그리고/또는 사용자의 현재 지리적-위치에 관한 정보)를 수집할지 여부를 제어할 기회를 제공받을 수 있고, 혹은 사용자들은 사용자와 더 관련되어 있을 수 있는 콘텐츠 서버(content server)로부터 콘텐츠를 수신할지 여부 및/또는 어떻게 수신할지를 제어할 기회를 제공받을 수 있다. 추가적으로, 특정 데이터는 이러한 데이터가 저장 혹은 사용되기 전에, 개인적으로 식별가능한 정보는 제거되도록, 하나 이상의 방식들로 처리될 수 있다. 예를 들어, 사용자의 아이덴티티(identity)는 사용자에 대한 어떠한 개인적으로 식별가능한 정보도 결정될 수 없도록 처리될 수 있고, 또는 위치 정보(예를 들어, 도시(city), ZIP 코드(ZIP code), 혹은 주(state) 레벨)가 획득되는 사용자의 지리적 위치는 일반화될 수 있고, 이에 따라 사용자의 특정 위치는 결정될 수 없게 된다. 따라서, 사용자는 사용자에 대한 정보가 어떻게 수집되는지 및 콘텐츠 서버에 의해 어떻게 사용되는지 그리고 사용자에 대한 정보가 수집되는지 여부 및 콘텐츠 서버에 의해 사용되는지 여부에 관한 제어를 할 수 있다.

도 1을 참조하면, 컴퓨팅 네트워크(100)가 예시된다. 컴퓨팅 네트워크(100)는 서버(104)를 포함한다. 본 명세서에서 사용되는 바와 같은 용어 "서버"는 단일 하드웨어 컴퓨터 서버를 지칭할 수도 있고, 병렬형 혹은 분산형 아키텍처에서 동작하는 복수의 유사한 서버들을 지칭할 수도 있다. 단지 예시적 목적으로 살펴보면, 제 1 서버 및 제 2 서버가 OCR 및 기계 언어 번역을 각각 수행하도록 구현될 수 있다. 모바일 컴퓨팅 디바이스(108)는 네트워크(112)를 통해 서버들(104)과 통신하도록 구성된다. 모바일 컴퓨팅 디바이스(108)의 예들은, 랩탑 컴퓨터, 태블릿 컴퓨터, 모바일 전화기, 및 착용가능한 기술(예컨대, 스마트와치(smartwatch), 아이웨어(eyewear), 혹은 (컴퓨팅 디바이스를 포함하는) 다른 착용가능한 객체들)을 포함한다. 하지만, 본 개시내용의 기법들은 디스플레이 및 카메라를 갖는 임의의 컴퓨팅 디바이스(예를 들어, 데스크탑 컴퓨터)에서 구현될 수 있음을 이해해야 한다. 네트워크(112)는 로컬 영역 네트워크(Local Area Network, LAN), 와이드 영역 네트워크(Wide Area Network, WAN)(예를 들어, 인터넷) 혹은 이들의 결합을 포함할 수 있다.

모바일 컴퓨팅 디바이스(108)는 사용자(116)와 관련될 수 있다. 예를 들어, 사용자(116)는 디스플레이(120)(예를 들어, 터치 디스플레이(touch display))를 통해 모바일 컴퓨팅 디바이스(108)와 상호작용할 수 있다. 사용자(116)는 임의의 장면(scene)의 이미지(124)를 포착하기 위해 모바일 컴퓨팅 디바이스(108)를 사용할 수 있다. 이미지(124)는 전경(128) 및 배경(132)을 포함할 수 있다. 제시된 바와 같이, 이미지(124)의 전경(128)은 객체(136)를 포함하고 객체(136) 상에는 텍스트(140)가 있다. 예시된 사례에서, 해당 장면은 식당이고, 객체(136)는 메뉴판이다. 단지 예시적 목적으로 살펴보면, 사용자(116)는 자신의 전방에서 객체(136)를 잡고 있을 수 있고 이와 동시에 이미지(124)를 포착하고 있을 수 있다. 객체(136)의 다른 예들은 문서들, 표지(sign)들, 및 광고들을 포함한다. 텍스트(140)를 검출하기 위해 이미지에 관해 OCR이 수행될 수 있다. 제시된 바와 같이, 이미지(124)의 배경(132)은, 테이블(148) 및 테이블(148)의 상부 표면 상에 정렬된 식사 위치 세팅물(dining place setting)(152)(접시, 포크, 나이프, 스푼, 냅킨 등)을 포함하는 비-텍스트 맥락 정보(144)를 포함할 수 있다.

텍스트(140)를 획득한 이후, 텍스트(140)는 타겟 언어(예를 들어, 사용자가 이해하는/말하는 언어)로 번역될 수 있다. OCR 및/또는 기계 언어 번역은 (모바일 컴퓨팅 디바이스(108)에서) 국지적으로 수행될 수 있거나, 혹은 (서버(104)에서) 원격으로 수행될 수 있거나, 혹은 이들이 결합으로 수행될 수 있다. 예를 들어, 모바일 컴퓨팅 디바이스(108)는 프로세싱을 위해 이미지를 서버(104)로 전송할 수 있다. 서버(104)는 OCR 텍스트를 획득할 수 있고, 비-텍스트 맥락 정보(144)를 식별할 수 있고, 그리고 OCR 텍스트의 번역물을 획득할 수 있다. 예시된 사례에서, 비-텍스트 맥락 정보(144)는 식당 환경을 표시하고, 따라서 서버(104)는 이러한 지식을 활용(leverage)하여 이미지(124)의 식당 맥락에 대응하는 OCR 텍스트의 번역물을 획득할 수 있다. 본 명세서에서 이전에 논의된 바와 같이, 예를 들어, 만약 OCR 텍스트가 "rind"인 경우, 식당 맥락은 영어 단어 "cow" 대신에 영어 단어 "beef"로의 번역을 표시하게 될 것이다.

이제 도 2를 참조하면, 예시적인 서버(104)의 기능적 블록도가 예시된다. 서버(104)는 통신 디바이스(200), 프로세서(204), 및 메모리(208)를 포함할 수 있다. 통신 디바이스(200)는 네트워크(112)를 통해 모바일 컴퓨팅 디바이스(108)와 같은 다른 디바이스들과 통신하도록 구성된 임의의 적절한 컴포넌트들(예를 들어, 송수신기)을 포함할 수 있다. 메모리(208)는 서버(104)에서 정보를 저장하도록 구성된 임의의 적절한 저장 매체(플래시, 하드 디스크 등)를 포함할 수 있다. 프로세서(204)는 서버(104)의 동작을 제어할 수 있다. 프로세서(204)에 의해 수행되는 예시적 기능들은, 서버(104)의 오퍼레이팅 시스템(operating system)을 로딩(loading)/실행(executing)하는 것, 통신 디바이스(200)를 통한 정보의 전송/수신을 제어하는 것, 그리고 메모리(208)에서의 판독/기입 동작들을 제어하는 것을 포함하지만, 이러한 것으로만 한정되는 것은 아니다. 프로세서(204)는 또한 이제 더 상세히 논의되는 본 개시내용의 기법들 중 적어도 일부를 실행하도록 구성될 수 있다.

서버(104)는 프로세싱을 위한 이미지를 수신할 수 있다. 이미지는 모바일 컴퓨팅 디바이스(108)로부터 수신될 수 있다. 일부 실시예들에서, 모바일 컴퓨팅 디바이스(108)는 이미지를 포착할 수 있고, 하지만 이미지는 또한, 또 하나의 다른 소스로부터 모바일 컴퓨팅 디바이스(108)에 의해 획득될 수 있다. 서버(104)에서의 이미지의 수신은 OCR 및 기계 언어 번역에 대한 요청을 나타낼 수 있다. 대안적으로, 모바일 컴퓨팅 디바이스(108)는 명시적 요청을 이미지와 함께 서버(104)로 전송할 수 있다. 서버(104)는 OCR 텍스트를 획득하기 위해 이미지에 관해 OCR를 수행할 수 있다. OCR 텍스트를 획득하기 위해 임의의 적절한 OCR 알고리즘이 이용될 수 있다. 일부 구현예들에서, OCR의 적어도 일부분은 또 하나의 다른 디바이스(예를 들어, 모바일 컴퓨팅 디바이스(108) 혹은 또 하나의 다른 서버)에서 수행될 수 있다. OCR 텍스트를 획득한 이후, 서버(104)는 본 개시내용의 기계 언어 번역 기법들을 이용해 계속 동작할 수 있다.

일부 구현예들에서, 서버(104)는 OCR 텍스트의 초벌 번역물, 혹은 "초벌 번역된 OCR 텍스트"를 획득할 수 있다. 이러한 초벌 번역된 OCR 텍스트는 이미지로부터의 어떠한 비-텍스트 맥락 정보도 고려함이 없이 OCR 텍스트를 그 소스 언어로부터 타겟 언어로 기계 언어 번역한 번역물을 나타낼 수 있다. 타겟 언어는 모바일 컴퓨팅 디바이스(108)에 의해 특정될 수 있는데, 예컨대 사용자(116)로부터의 입력에 의해 특정될 수 있고 혹은 사용자(116)의 선호도들에 의해 특정될 수 있다. 서버(104)는 이미지로부터 임의의 비-텍스트 맥락 정보를 식별할 수 있다. 비-텍스트 맥락 정보를 식별하기 위해 서버(104)에 의해 임의의 적절한 객체 인식 및/또는 특징 검출 기법들이 이용될 수 있다. 일부 구현예들에서, 서버(104)는 분류된 훈련 세트(labeled training set)들을 사용하여 분류기를 훈련시키기 위해 기계 학습을 수행할 수 있고, 그 다음에 이러한 훈련된 분류기를 사용하여 비-텍스트 맥락 정보를 식별할 수 있다. 이전에 논의된 바와 같이, 예시적인 비-텍스트 맥락 정보는 객체들의 유형들, 형상들, 컬러들, 그리고 텍스트 속성들(예컨대, 글자체들)을 포함한다.

비-텍스트 맥락 정보를 식별한 이후에, 서버(104)는 비-텍스트 맥락 정보에 근거하여 OCR 텍스트의 번역물 혹은 "번역된 OCR 텍스트"를 획득할 수 있다. 만약 초벌 번역된 OCR 텍스트가 이전에 획득되었다면, 서버(104)는 초벌 번역된 OCR 텍스트를 비-텍스트 맥락 정보를 고려하여 조정할지 여부를 결정할 수 있다. 단지 예시적 목적으로 살펴보면, 다양한 비-텍스트 맥락 정보에 근거하여 하나 이상의 추가적인 번역된 OCR 텍스트들이 발생될 수 있고, 그 다음에 (초벌 OCR 텍스트(baseline OCR text)를 포함하는) 각각의 번역된 OCR 텍스트는 서로 비교될 수 있는바, 예를 들어, 말뭉치로-가중된 의미(corpus-weighted meaning)들을 사용하여 서로 비교될 수 있다. 추가적으로, 다른 정보가 또한, 번역된 OCR 텍스트의 획득을 증강시키기 위해 사용될 수 있다. 이전에 논의된 바와 같이, 이러한 다른 정보의 예들은 위치의 유형, 및/또는 지리적-위치, 뿐만 아니라 사용자 이력을 포함한다. 추가적으로, 서버(104)는 이미지가 실내에서 포착되었는지 혹은 실외에서 포착되었는지를 결정할 수 있다. 이러한 결정은 비-텍스트 맥락 정보, 다른 정보(예를 들어, 지리적-위치), 그리고/또는 이미지화 파라미터들(주변 조명, 밝기, 플래시 온/오프(flash on/off) 등)에 기반을 둘 수 있다.

만약 비-텍스트 맥락 정보가, 초벌 번역된 OCR 텍스트가 올바르지 않음 혹은 정확하지 않음을 표시한다면(예를 들어, 올바른지 않은 맥락을 표시한다면), 서버(104)는 초벌 번역된 OCR 텍스트를 비-텍스트 맥락 정보에 근거하여 조정하여 임의의 번역된 OCR 텍스트 혹은 "조정이 이루어진 번역된 OCR 텍스트"를 획득할 수 있다. 만약 그렇지 않다면, 초벌 번역된 OCR 텍스트가 이용될 수 있다. 그 다음에, 서버(104)는 적절한 번역된 OCR 텍스트를 사용자(116)에게 디스플레이하기 위해 모바일 컴퓨팅 디바이스(108)로 출력할 수 있다. 추가적으로 혹은 대안적으로, 서버(104)는 적절한 번역된 OCR 텍스트를 또 하나의 다른 디바이스로 보낼 수 있고, 그리고/또는 장래의 동작들 동안의 검색 및/또는 학습을 위해 적절한 번역된 OCR 텍스트를 (예를 들어, 메모리(208)에) 저장할 수 있다. 단지 예시적 목적으로 살펴보면, 상이한 사용자 모바일 컴퓨팅 디바이스들로부터 동일한 이미지(예를 들어, 유명한 표지(sign) 혹은 육상 지표(landmark))가 반복적으로 서버(104)로 보내질 수 있고, 따라서 서버(104)는 이러한 이미지들이 동일함을 결정할 수 있고, 그 다음에, 서버(104)는 사용자 모바일 컴퓨팅 디바이스들에게 더 빨리 제공하기 위해 적절한 번역된 OCR 텍스트를 검색할 수 있다.

도 3a 및 도 3b는 예시적인 이미지들(300, 350)의 쌍을 나타내며, 이들 이미지들(300, 350) 각각은 텍스트는 동일한 것을 갖지만 맥락은 서로 다른 것을 갖는바, 이에 따라 서로 다른 비-텍스트 맥락 정보를 갖는다. 각각의 이미지(300, 350)는 텍스트 "rind"를 포함한다. 이전에 논의된 바와 같이, 독일어 단어 "rind(린트)"는 복수의 의미들을 갖고 있으며, 그리고 영어 단어 "beef(소고기)" 및 영어 단어 "cow(소)"에 모두 대응한다. 유사하게, 도 4a 및 도 4b도 또한, 예시적인 이미지들(400, 450)의 쌍을 나타내며, 이들 이미지들(400, 450) 각각은 텍스트는 동일한 것을 갖지만 맥락은 서로 다른 것을 갖는바, 이에 따라 서로 다른 비-텍스트 맥락 정보를 갖는다. 이전에 논의된 바와 같이, 영어 어구 "bear right"는 "곰(bear)(동물)은 우측(right)에 있어요" 및 "우측(right)으로 방향을 바꾸세요(veer)/돌리세요(turn)/유지하세요(stay)"를 포함하는 복수의 의미들을 가지고 있다. 이러한 상이한 의미들은 비-영어권 언어들에서 복수의 번역물들에 대응할 수 있다. 종래의 시스템들은 이러한 이미지 쌍들(300과 350 그리고 400과 450) 각각에 대해, 동일한 번역된 OCR 텍스트들을 출력하게 된다. 하지만, 이러한 이미지 쌍들(300과 350 그리고 400과 450)의 맥락들은 서로 다르기 때문에, 번역된 OCR 텍스트들도 서로 다를 필요가 있다.

도 3a의 좌측 이미지(300)에서, 맥락은 식료품 상점(grocery store)이고, 캔(can)(304)은 텍스트(308)를 포함한다. 서버(104)는 이미지(300)로부터 비-텍스트 맥락 정보를 식별할 수 있는바, 여기서 비-텍스트 맥락 정보는, 캔(304)의 형상(원통형), 선반들(312), (예를 들어, 줄지어 있는) 복수의 (다른) 캔들(316), 그리고 복수의 다른 객체들(320)(예를 들어, 줄지어 있는 박스들)을 포함할 수 있지만, 이러한 것으로만 한정되는 것은 아니다. 식료품 상점 맥락을 표시할 수 있는 다른 예시적인 비-텍스트 맥락 정보는, 음식 아이템들(예를 들어, 캔(304)) 상의 라벨(label)들, 텍스트(312)의 글자체, 가격 딱지들, 및 통로 번호들/제조자들을 포함할 수 있다. 이전에 논의된 바와 같이, 서버(104)는 또한 이미지(300)가 실내에서 포착되었음을 검출할 수 있고, 이것은 식료품 상점 맥락을 결정하는데 사용될 수 있다. 식료품 상점 맥락은 "cow(소)"의 의미 대신 "beef(소고기)"의 의미를 표시하고, 이에 따라 적절한 번역된 OCR 텍스트("beef")가 제공될 수 있다.

도 3b의 우측 이미지(350)에서, 맥락은 도로 건널목(road crossing)이고, 표지(sign)(354)는 텍스트(358)를 포함한다. 서버(104)는 이미지(350)로부터 비-텍스트 맥락 정보를 식별할 수 있는바, 여기서 비-텍스트 맥락 정보는, 표지(354)의 형상(다이아몬드형), 표지 상의 삽화들(362)(소가 도로를 건너는 삽화), 도로(366), 도로(366)의 건널목(370)(예를 들어, 이것은 도로(366)와는 다른 질감(texture)을 가지고 있고, 이에 따라 건널목임을 표시하고 있음), 그리고 나무들(374)을 포함할 수 있지만, 이러한 것으로만 한정되는 것은 아니다. 도로 건널목 맥락을 표시할 수 있는 다른 예시적 비-텍스트 맥락 정보는, 텍스트(358)의 글자체 및 한 마리 이상의 소들이다. 예를 들어, 표지(358)와 같은 그러한 표지들은 특정된 글자체들 혹은 글자체들의 세트들을 항상 사용할 수 있고, 그리고 다른 객체들도 또한 특정 글자체들 혹은 글자체들의 세트들과 관련될 수 있다. 서버(104)는 또한 이미지(350)가 실외에서 포착되었음을 검출할 수 있고, 이것은 도로 건널목 맥락을 결정하는데 사용될 수 있다. 도로 건널목 맥락은 "beef(소고기)"의 의미 대신 "cow(소)"의 의미를 표시하고, 이에 따라 적절한 번역된 OCR 텍스트("cow")가 제공될 수 있다.

도 4a의 좌측 이미지(400)에서, 맥락은 공사 중인 도로 혹은 고속도로이고, 표지(404)는 텍스트(408)를 포함한다. 서버(104)는 이미지(400)로부터 비-텍스트 맥락 정보를 식별할 수 있는바, 여기서 비-텍스트 맥락 정보는, 표지의 형상(다이아몬드형, 이것은 도로/고속도로 표지를 표시할 수 있음), 표지(404) 상의 화살표(412)의 유형 혹은 형상(예를 들어, 화살표(412)의 휘어진 특성은 분기점/분할점(420) 이후 전방 도로(420)를 표시할 수 있음), 도로 혹은 고속도로(416), 도로/고속도로(416) 내의 분기점 혹은 분할점(424), 및 공사 차단물(construction barrier)(428)을 포함할 수 있지만, 이러한 것으로만 한정되는 것은 아니다. 도로/고속도로 공사 맥락을 표시할 수 있는 다른 예시적 비-텍스트 맥락 정보는, 텍스트(408)의 글자체, 다른 공사 표지들, 공사 작업자들, 및 컬러들(예를 들어, 오렌지색은 공사를 표시할 수 있음)이다. 서버(104)는 또한 이미지(400)가 실외에서 포착되었음을 검출할 수 있고, 이것은 도로/고속도로 공사 맥락을 결정하는데 사용될 수 있다. 도로/고속도로 공사 맥락은 "곰(bear)(동물)은 우측(right)에 있어요"의 의미 대신 "우측(right)으로 방향을 바꾸세요(veer)/돌리세요(turn)/유지하세요(stay)"의 의미를 표시하고, 이에 따라 적절한 번역된 OCR 텍스트가 제공될 수 있다.

도 4b의 우측 이미지(450)에서, 맥락은 동물원이고, 표지(454)는 텍스트(458)를 포함한다. 서버(104)는 이미지(400)로부터 비-텍스트 맥락 정보를 식별할 수 있는바, 여기서 비-텍스트 맥락 정보는, 화살표(462)의 유형 혹은 형상, 경로 혹은 보행로(466), 잔디(470), 나무들(474), 차단봉들을 갖는 우리(cage)(478), 그리고 우리(478) 안의 곰(482)을 포함할 수 있지만, 이러한 것으로만 한정되는 것은 아니다. 동물원 맥락을 표시할 수 있는 다른 예시적 비-텍스트 맥락 정보는, 텍스트(458)의 글자체(예를 들어, 재미있는 글자체 혹은 아이에게-친근한 글자체), 다른 동물원 표지들, 다른 동물들, 다른 우리들, 그리고 사람들(예를 들어, 다른 아이들)이다. 서버(104)는 또한 이미지(400)가 실외에서 포착되었음을 검출할 수 있고, 이것은 동물원 맥락을 결정하는데 사용될 수 있다. 단지 예시적 목적으로 살펴보면, 잔디(470) 및/또는 나무들(474)의 녹색 컬러는 실외 맥락을 표시할 수 있고, 아울러 더 구체적으로는 동물원 맥락을 표시할 수 있다. 동물원 맥락은 "우측(right)으로 방향을 바꾸세요(veer)/돌리세요(turn)/유지하세요(stay)"의 의미 대신 "곰(bear)(동물)은 우측(right)에 있어요"의 의미를 표시하고, 이에 따라 적절한 번역된 OCR 텍스트가 제공될 수 있다.

이제 도 5를 참조하면, 이미지로부터의 비-텍스트 맥락 정보에 근거하여 이미지로부터의 OCR 텍스트에 대해 기계 언어 번역을 하기 위한 예시적인 기법(500)의 흐름도가 나타나 있다. 단계(504)에서, 서버(104)는 텍스트를 포함하는 이미지를 모바일 컴퓨팅 디바이스(108)로부터 수신할 수 있다. 예를 들어, 이미지는 모바일 컴퓨팅 디바이스(108)에 의해 포착된 것일 수 있다. 단계(508)에서, 서버(104)는 이미지 내의 텍스트에 대응하는 OCR 텍스트를 획득할 수 있다. OCR은 서버(104)에서, 혹은 또 하나의 다른 서버에서, 혹은 이들의 어떤 조합에서 수행될 수 있다. 단계(512)에서, 서버(104)는 선택에 따라서는 OCR 텍스트를 타겟 언어로 번역한 번역물을 식별하여 초벌 번역된 OCR 텍스트를 획득할 수 있다. 이러한 초벌 번역된 OCR 텍스트는 이미지로부터의 비-텍스트 맥락 정보를 고려하지 않은 OCR 텍스트의 번역물을 나타낼 수 있다.

단계(516)에서, 서버(104)는 이미지로부터 비-텍스트 맥락 정보를 식별할 수 있고, 여기서 비-텍스트 맥락 정보는 (i) 텍스트 자체와는 다른 맥락 정보를 나타내고 아울러 (ii) 이미지의 맥락을 표시한다. 단계(520)에서, 서버(104)는 초벌 번역된 OCR 텍스트를 비-텍스트 맥락 정보에 근거하여 조정할지 여부를 결정할 수 있다. 만약 초벌 번역된 OCR 텍스트가 비-텍스트 맥락 정보를 고려하여 번역돼야한다면, 본 기법(500)은 단계(524)로 진행할 수 있다. 그렇지 않다면, 본 기법은 단계(528)로 진행할 수 있다. 단계(524)에서, 서버(104)는 초벌 번역된 OCR 텍스트를 비-텍스트 맥락 정보에 근거하여 조정하여, 번역된 OCR 텍스트를 획득할 수 있다. 예를 들어, 서버(104)는 비-텍스트 맥락 정보에 근거하여 OCR 텍스트의 새로운 번역물을 획득할 수 있다. 단계(528)에서, 서버(104)는 번역된 OCR 텍스트(혹은 초벌 번역된 OCR 텍스트)를 모바일 컴퓨팅 디바이스(108)에 출력할 수 있다. 그 다음에, 본 기법(500)은 종료될 수 있거나, 혹은 단계(504)로 되돌아 갈 수 있다.

본 개시내용이 완벽해지도록 아울러 본 발명의 기술분야에서 숙련된 자들에게 그 범위를 충분히 전달하도록 예시적 실시예들이 제공된다. 본 개시내용의 실시예들의 완벽한 이해를 제공하기 위해, 특정 컴포넌트들, 디바이스들, 및 방법들의 예들과 같은 다수의 특정 세부사항들이 설명된다. 이러한 특정 세부사항들이 반드시 이용될 필요는 없다는 것, 그리고 예시적 실시예들이 다수의 다양한 형태로 구현될 수 있다는 것, 그리고 그 어떠한 것도 본 개시내용의 범위를 한정하는 것으로 해석돼서는 안 된다는 것이 본 발명의 기술분야에서 숙련된 자들에게 명백하게 될 것이다. 일부 예시적 실시예들에서, 잘 알려진 절차들, 잘 알려진 디바이스 구조들, 그리고 잘 알려진 기술들은 상세하게 설명되지 않는다.

본 명세서에서 사용되는 용어는 단지 특정 예시적 실시예들을 설명할 목적을 가지고 있으며 한정할 의도로 사용되는 것이 아니다. 본 명세서에서 사용되는 바와 같은 단수적 형태의 표현들은 또한, 해당 문장에서 명확하게 달리 표시하지 않는 한, 복수적 형태의 표현들의 의미를 포함하도록 의도된 것 일 수 있다. 용어 "및/또는"은 그 관련되어 나열되는 항목들 중 임의의 것 그리고 이러한 항목들 중 하나 이상의 것의 모든 조합들을 포함한다. 용어 "포함한다", "포함하는", "포함하고 있는", 그리고 "가지고 있는" 등은 내포적 의미를 갖는바, 이에 따라 이러한 용어들은 그 기재된 특징들, 정수들, 단계들, 동작들, 요소들, 및/또는 컴포넌트들을 특정하며, 하지만 하나 이상의 다른 특징들, 정수들, 단계들, 동작들, 요소들, 컴포넌트들, 및/또는 이들의 그룹들의 존재 혹은 추가를 배제하지 않는다. 본 명세서에서 설명되는 방법의 단계들, 프로세스들, 및 동작들은, 구체적으로 그 수행 순서가 확정되는 경우가 아니라면, 이들의 수행을 본 명세서에서 논의되는 혹은 예시되는 그러한 특정 순서로 반드시 해야하는 것으로 해석돼서는 안 된다. 추가적인 혹은 대안적인 단계들이 사용될 수 있음을 또한 이해해야 한다.

다양한 요소들, 컴포넌트들, 영역들, 계층들 그리고/또는 섹션들을 설명하기 위해 본 명세서에서 제1, 제2, 제3 등의 용어가 사용될 수 있지만, 이러한 용어들에 의해 해당 요소들, 컴포넌트들, 영역들, 계층들 그리고/또는 섹션들이 한정돼서는 안 된다. 이러한 용어들은 하나의 요소, 컴포넌트, 영역, 계층 혹은 섹션을 또 하나의 다른 영역, 계층 혹은 섹션과 구분하기 위해 오로지 사용될 수 있다. "제1", "제2", 및 다른 수치적 용어들과 같은 용어들은 본 명세서에서 사용되는 경우, 해당 문장에서 명확히 표시되지 않는, 그 순차적 절차 혹은 순서를 시사하고 있지 않다. 따라서, 아래에서 논의되는 제 1 요소, 제 1 컴포넌트, 제 1 영역, 제 1 계층 혹은 제 1 섹션은, 본 발명의 예시적 실시예들의 가르침으로부터 벗어남이 없이 제 2 요소, 제 2 컴포넌트, 제 2 영역, 제 2 계층 혹은 제 2 섹션으로 지칭될 수도 있다.

본 명세서에서 사용되는 바와 같은, 용어 "모듈(module)"은 애플리케이션 특정 집적 회로(Application Specific Integrated Circuit, ASIC); 전자 회로; 조합형 로직 회로(combinational logic circuit); 현장 프로그래밍가능 게이트 어레이(Field Programmable Gate Array, FPGA); 코드, 혹은 프로세스를 실행하는 네트워크화된 클러스터(networked cluster)들 또는 데이터센터(datacenter)들 내의 프로세서 혹은 (공유된, 전용의, 혹은 그룹화된) 프로세서들의 분산형 네트워크, 그리고 저장소; 앞서 설명된 기능을 제공하는 다른 적절한 컴포넌트들; 또는 예를 들어, 시스템-온-칩(system-on-chip) 내에서의 앞서 나열된 것들 중 일부 혹은 모두의 조합을 지칭할 수 있거나, 그 일부일 수 있으며, 혹은 이들을 포함할 수 있다. 용어 "모듈"은 또한 하나 이상의 프로세서들에 의해 실행되는 코드를 저장하고 있는 (공유된, 전용의, 혹은 그룹화된) 메모리를 포함할 수 있다.

앞서 사용된 바와 같은, 용어 "코드(code)"는 소프트웨어, 펌웨어, 바이트-코드(byte-code) 및/또는 마이크로코드(microcode)를 포함할 수 있고, 프로그램들, 루틴(routine)들, 함수(function)들, 클래스(class)들 및/또는 객체들을 지칭할 수 있다. 앞서 사용된 바와 같은, 용어 "공유된(shared)"의 의미는 복수의 모듈들로부터의 일부 코드 혹은 모든 코드가 단일의 (공유된) 프로세서를 사용하여 실행될 수 있음을 의미한다. 추가적으로, 복수의 모듈들로부터의 일부 코드 혹은 모든 코드는 단일의 (공유된) 메모리에 의해 저장될 수 있다. 앞서 사용된 바와 같은, 용어 "그룹(group)"의 의미는 단일 모듈로부터의 일부 코드 혹은 모든 코드가 프로세서들의 그룹을 사용하여 실행될 수 있음을 의미한다. 추가적으로, 단일 모듈로부터의 일부 코드 혹은 모든 코드는 메모리들의 그룹을 사용하여 저장될 수 있다.

본 명세서에서 설명되는 기법들은 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 컴퓨터 프로그램들에 의해 구현될 수 있다. 컴퓨터 프로그램들은 비-일시적인 유형의 컴퓨터 판독가능 매체(non-transitory tangible computer readable medium)에 저장되는 프로세서-실행가능 명령들을 포함한다. 컴퓨터 프로그램들은 또한 저장된 데이터를 포함할 수 있다. 비-일시적인 유형의 컴퓨터 판독가능 매체의 비한정적 예들은 비휘발성 메모리, 자기 저장소(magnetic storage) 및 광학 저장소(optical storage)이다.

앞서의 설명 중 일부분들은 본 명세서에서 설명되는 기법들을 정보에 관한 동작들의 알고리즘들 및 기호적 표현들로 제시한다. 이러한 알고리즘적 설명들 및 표현들은 데이터 프로세싱 기술분야에서 숙련된 자들이 그들의 작업의 요지를 본 발명의 기술분야에서 숙련된 다른 사람들에게 가장 효과적으로 전달하기 위해 사용되는 수단이다. 이러한 동작들이 기능적으로 혹은 논리적으로 설명되고 있지만, 컴퓨터 프로그램들에 의해 구현될 수 있음을 이해해야 한다. 더욱이, 일반적 개념(generality)을 잃어 버리지 않으면서 동작들의 이러한 구성들을 모듈들로서 나타내거나 혹은 기능적 명칭들에 의해 나타내는 것은 또한 때에 따라 편리한 것으로 판명되고 있다.

앞서 논의된 것으로부터 명백한 바와 같이 달리 특정적으로 기재되지 않는다면, 본 명세서의 설명 전체에 걸쳐 "프로세싱" 혹은 "컴퓨팅" 혹은 "계산" 혹은 "결정" 혹은 "디스플레이" 등과 같은 용어를 사용하여 논의된 것들은, 컴퓨터 시스템 메모리들 혹은 레지스터들 혹은 다른 이러한 정보 저장, 전송 또는 디스플레이 디바이스들 내에서 물리적인 (전자적) 양들로 나타내지는 데이터를 조작 및 변환하는 컴퓨터 시스템 혹은 유사한 전자 컴퓨팅 디바이스의 동작 및 프로세스들을 지칭하는 것임을 이해해야 한다.

앞서 설명된 기법들의 특정 실시형태들은 알고리즘 형태로 본 명세서에서 설명되는 프로세스 단계들 및 명령들을 포함한다. 앞서 설명된 프로세스 단계들 및 명령들은 소프트웨어, 펌웨어, 혹은 하드웨어로 구현될 수 있고, 그리고 소프트웨어로 구현되는 경우 실시간 네트워크 오퍼레이팅 시스템(real time network operating system)들에서 사용되는 다양한 플랫폼들 상에 상주하도록 다운로드될 수 있고 이러한 플랫폼들로부터 동작될 수 있음에 유의해야만 한다.

본 개시내용은 또한 본 명세서에서의 동작들을 수행하기 위한 장치와 관련된다. 이러한 장치는 요구된 목적들을 위해 특별히 구성될 수 있거나, 또는 컴퓨터에 의해 액세스될 수 있는 컴퓨터 판독가능 매체 상에 저장된 컴퓨터 프로그램에 의해 선택적으로 활성화되거나 재구성되는 범용 컴퓨터를 포함할 수 있다. 이러한 컴퓨터 프로그램은 유형의 컴퓨터 판독가능 저장 매체에 저장될 수 있는바, 이러한 컴퓨터 판독가능 저장 매체는, 예를 들어, 플로피 디스크들, 광학 디스크들, CD-ROM들, 자기-광학 디스크(magnetic-optical disk)들을 포함하는 임의 타입의 디스크, 판독-전용 메모리(Read-Only Memory, ROM)들, 랜덤 액세스 메모리(Random Access Memory, RAM)들, EPROM들, EEPROM들, 자기 혹은 광학 카드들, 애플리케이션 특정 집적 회로(ASIC), 또는 전자 명령들을 저장하기에 적합하고 그 각각이 컴퓨터 시스템 버스에 결합되는 임의 타입의 매체들이 있지만 이러한 것으로만 한정되는 것은 아니다. 더욱이, 본 명세서에서 지칭되는 컴퓨터들은 단일 프로세서를 포함할 수 있거나, 또는 컴퓨팅 능력 증진을 위해 복수의 프로세서 설계들을 사용하는 아키텍처들일 수 있다.

본 명세서에 제시되는 알고리즘들 및 동작들은 본질적으로 임의의 특정 컴퓨터 혹은 다른 장치와 관련되지 않는다. 다양한 범용 시스템들이 또한, 본 명세서에서의 가르침들을 따르는 프로그램들과 함께 사용될 수 있고, 또는 요구된 방법의 단계들을 수행하기 위해 더 특수하게 설계된 장치들을 구성하는 것이 편리한 것으로 판명될 수 있다. 다양한 이러한 시스템들을 위해 그 요구되는 구조는 그 등가적 변형물들과 함께 본 발명의 기술분야에서 숙련된 자들에게 명백할 것이다. 추가적으로, 본 개시내용은 임의의 특정 프로그래밍 언어와 관련되어 설명되는 것이 아니다. 다양한 프로그래밍 언어들이 본 명세서에서 설명되는 바와 같은 본 개시내용의 가르침들을 구현하기 위해 사용될 수 있고, 그리고 특정 언어들에 대한 임의의 언급들은 본 발명의 구현가능예 및 최상의 모드를 개시하기 위해 제공되는 것임을 이해해야 한다.

본 개시내용은 다수의 토폴로지(topologies)에 걸쳐 매우 다양한 컴퓨터 네트워크 시스템들에 잘 맞다. 이러한 분야에서, 대규모 네트워크들의 구성 및 관리는 인터넷과 같은 네트워크를 통해 상이한 컴퓨터들 및 저장 디바이스들에 통신가능하게 결합되는 컴퓨터들 및 저장 디바이스들을 포함한다.

본 발명의 실시예들의 앞서의 설명은 예시 및 설명 목적으로 제공된 것이다. 이것은 본 발명의 실시예들을 전부 설명하려고 의도된 것이 아니며 본 개시내용을 한정하도록 의도된 것이 아니다. 특정 실시예의 개개의 요소들 혹은 특징들은 (비록 특정적으로 제시 혹은 설명되지 않을지라도) 일반적으로 그 특정 실시예에 한정되지 않으며, 적용가능한 경우 상호교환가능하고, 그리고 임의의 선택된 실시예에서 사용될 수 있다. 또한, 동일한 것이 다양한 방식으로 변형될 수 있다. 이러한 변형들이 본 개시내용으로부터 벗어나는 것으로 고려돼서는 안 되며, 이러한 모두 수정들은 본 개시내용의 범위 내에 포함되도록 의도된 것이다.

Claims

컴퓨터로 구현되는 방법으로서,
텍스트(text)를 포함하는 이미지(image)를 모바일 컴퓨팅 디바이스(mobile computing device)로부터 서버(server)에서 수신하는 것과, 상기 서버는 하나 이상의 프로세서들을 갖고 있으며;
상기 서버에서, 상기 텍스트에 대응하는 광학 문자 인식(Optical Character Recognition, OCR) 텍스트를 획득하는 것과, 상기 OCR 텍스트는 상기 이미지에 관해 OCR을 수행함으로써 획득된 것이며;
상기 서버에서, 상기 이미지로부터 비-텍스트 맥락 정보(non-textual context information)를 식별하는 것과, 상기 비-텍스트 맥락 정보는 (i) 상기 텍스트 자체와는 다른 맥락 정보를 나타내고 아울러 (ii) 상기 이미지의 맥락을 표시하며;
상기 서버에서, 상기 비-텍스트 맥락 정보를 근거로 상기 OCR 텍스트를 타겟 언어(target language)로 번역한 번역물을 획득하여, 번역된 OCR 텍스트를 획득하는 것과; 그리고
상기 번역된 OCR 텍스트를 상기 서버로부터 상기 모바일 컴퓨팅 디바이스로 출력하는 것을 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
제1항에 있어서,
상기 방법은 또한,
상기 서버에서, 상기 OCR 텍스트를 상기 타겟 언어로 번역한 번역물을 획득하여, 초벌 번역된 OCR 텍스트(baseline translated OCR text)를 획득하는 것과; 그리고
상기 서버에서, 상기 초벌 번역된 OCR 텍스트를 상기 비-텍스트 맥락 정보에 근거하여 조정하여, 상기 번역된 OCR 텍스트를 획득하는 것을 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
제1항에 있어서,
상기 방법은 또한, 상기 서버에서, 상기 비-텍스트 맥락 정보에 근거하여 상기 텍스트의 소스 언어(source language)를 결정하는 것을 포함하고,
상기 번역된 OCR 텍스트는 또한, 상기 소스 언어에 기반을 두고 있는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
제1항에 있어서,
상기 방법은 또한, 상기 서버에서, 상기 비-텍스트 맥락 정보에 근거하여 상기 이미지가 포착(capture)된 위치의 유형(type)을 결정하는 것을 포함하고,
상기 번역된 OCR 텍스트는 또한, 상기 위치의 유형에 기반을 두고 있는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
제1항에 있어서,
상기 방법은 또한, 상기 서버에서, 상기 모바일 컴퓨팅 디바이스의 지리적-위치(geo-location)를 결정하는 것을 포함하고,
상기 번역된 OCR 텍스트는 또한, 상기 모바일 컴퓨팅 디바이스의 상기 지리적-위치에 기반을 두고 있는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
제5항에 있어서,
상기 방법은 또한,
상기 서버에서, 상기 지리적-위치에 근거하여 지도 정보(map information)를 획득하는 것과; 그리고
상기 서버에서, 상기 지도 정보를 사용하여 상기 지리적-위치와 가까운 관심이 있는 지점(point of interest)들을 식별하는 것을 포함하고,
상기 번역된 OCR 텍스트는 또한, 상기 지리적-위치와 가까운 상기 관심이 있는 지점들에 기반을 두고 있는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
제1항에 있어서,
상기 방법은 또한, 상기 서버에서, 상기 모바일 컴퓨팅 디바이스의 사용자에 대응하는 사용자 이력(user history)을 결정하는 것을 포함하고,
상기 번역된 OCR 텍스트는 또한, 상기 사용자 이력에 기반을 두고 있는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
제1항에 있어서,
상기 비-텍스트 맥락 정보는 상기 텍스트의 글자체(font)를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
제1항에 있어서,
상기 비-텍스트 맥락 정보는, (i) 상기 이미지 내의 객체(object) 및 (ii) 상기 이미지 내의 상기 객체의 형상 중 적어도 하나를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
제9항에 있어서,
상기 비-텍스트 맥락 정보는, 상기 객체의 컬러(color) 중 적어도 하나를 포함하고,
상기 방법은 또한, 상기 서버에서, 상기 객체의 컬러에 근거하여 상기 이미지가 실내(indoors)에서 포착되었는지 아니면 실외(outdoors)에서 포착되었는지를 결정하는 것을 포함하고,
상기 번역된 OCR 텍스트는 또한, 상기 이미지가 실내에서 포착되었는지 아니면 실외에서 포착되었는지에 기반을 두고 있는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
동작들을 수행하도록 되어 있는 하나 이상의 프로세서들을 갖는 서버로서,
상기 동작들은,
텍스트를 포함하는 이미지를 모바일 컴퓨팅 디바이스로부터 수신하는 것과;
상기 텍스트에 대응하는 광학 문자 인식(OCR) 텍스트를 획득하는 것과, 상기 OCR 텍스트는 상기 이미지에 관해 OCR을 수행함으로써 획득된 것이며;
상기 이미지로부터 비-텍스트 맥락 정보를 식별하는 것과, 상기 비-텍스트 맥락 정보는 (i) 상기 텍스트 자체와는 다른 맥락 정보를 나타내고 아울러 (ii) 상기 이미지의 맥락을 표시하며;
상기 비-텍스트 맥락 정보를 근거로 상기 OCR 텍스트를 타겟 언어로 번역한 번역물을 획득하여, 번역된 OCR 텍스트를 획득하는 것과; 그리고
상기 번역된 OCR 텍스트를 상기 모바일 컴퓨팅 디바이스로 출력하는 것을 포함하는 것을 특징으로 하는 서버.
제11항에 있어서,
상기 동작들은 또한,
상기 OCR 텍스트를 상기 타겟 언어로 번역한 번역물을 획득하여, 초벌 번역된 OCR 텍스트를 획득하는 것과; 그리고
상기 초벌 번역된 OCR 텍스트를 상기 비-텍스트 맥락 정보에 근거하여 조정하여, 상기 번역된 OCR 텍스트를 획득하는 것을 포함하는 것을 특징으로 하는 서버.
제11항에 있어서,
상기 동작들은 또한, 상기 비-텍스트 맥락 정보에 근거하여 상기 텍스트의 소스 언어를 결정하는 것을 포함하고,
상기 번역된 OCR 텍스트는 또한, 상기 소스 언어에 기반을 두고 있는 것을 특징으로 하는 서버.
제11항에 있어서,
상기 동작들은 또한, 상기 비-텍스트 맥락 정보에 근거하여 상기 이미지가 포착된 위치의 유형을 결정하는 것을 포함하고,
상기 번역된 OCR 텍스트는 또한, 상기 위치의 유형에 기반을 두고 있는 것을 특징으로 하는 서버.
제11항에 있어서,
상기 동작들은 또한, 상기 모바일 컴퓨팅 디바이스의 지리적-위치를 결정하는 것을 포함하고,
상기 번역된 OCR 텍스트는 또한, 상기 모바일 컴퓨팅 디바이스의 상기 지리적-위치에 기반을 두고 있는 것을 특징으로 하는 서버.
제15항에 있어서,
상기 동작들은 또한,
상기 지리적-위치에 근거하여 지도 정보를 획득하는 것과; 그리고
상기 지도 정보를 사용하여 상기 지리적-위치와 가까운 관심이 있는 지점들을 식별하는 것을 포함하고,
상기 번역된 OCR 텍스트는 또한, 상기 지리적-위치와 가까운 상기 관심이 있는 지점들에 기반을 두고 있는 것을 특징으로 하는 서버.
제11항에 있어서,
상기 동작들은 또한, 상기 모바일 컴퓨팅 디바이스의 사용자에 대응하는 사용자 이력을 결정하는 것을 포함하고,
상기 번역된 OCR 텍스트는 또한, 상기 사용자 이력에 기반을 두고 있는 것을 특징으로 하는 서버.
제11항에 있어서,
상기 비-텍스트 맥락 정보는 상기 텍스트의 글자체를 포함하는 것을 특징으로 하는 서버.
제11항에 있어서,
상기 비-텍스트 맥락 정보는, (i) 상기 이미지 내의 객체 및 (ii) 상기 이미지 내의 상기 객체의 형상 중 적어도 하나를 포함하는 것을 특징으로 하는 서버.
제19항에 있어서,
상기 비-텍스트 맥락 정보는, 상기 객체의 컬러 중 적어도 하나를 포함하고,
상기 동작들은 또한, 상기 객체의 컬러에 근거하여 상기 이미지가 실내에서 포착되었는지 아니면 실외에서 포착되었는지를 결정하는 것을 포함하고,
상기 번역된 OCR 텍스트는 또한, 상기 이미지가 실내에서 포착되었는지 아니면 실외에서 포착되었는지에 기반을 두고 있는 것을 특징으로 하는 서버.