KR101554293B1 - 교차 언어 정보 검색 - Google Patents

교차 언어 정보 검색 Download PDF

Info

Publication number
KR101554293B1
KR101554293B1 KR1020097025825A KR20097025825A KR101554293B1 KR 101554293 B1 KR101554293 B1 KR 101554293B1 KR 1020097025825 A KR1020097025825 A KR 1020097025825A KR 20097025825 A KR20097025825 A KR 20097025825A KR 101554293 B1 KR101554293 B1 KR 101554293B1
Authority
KR
South Korea
Prior art keywords
query
candidate
language
target
source
Prior art date
Application number
KR1020097025825A
Other languages
English (en)
Other versions
KR20100022467A (ko
Inventor
제프리 친
마우린 헤이만스
알렉산드리 코조우코브
조세린 린
휴이 탄
Original Assignee
구글 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 인코포레이티드 filed Critical 구글 인코포레이티드
Publication of KR20100022467A publication Critical patent/KR20100022467A/ko
Application granted granted Critical
Publication of KR101554293B1 publication Critical patent/KR101554293B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

교차-언어 정보 검색을 위한 방법들, 시스템들, 장치들 및 컴퓨터 프로그램 제품이 제공된다. 소스 언어로 된 소스 질의가 수신된다. 이 소스 질의는 타겟 언어로 된 타겟 질의로 번역된다. 이 타겟 질의를 충족하는, 하나 이상의 타겟 언어 리소스들이 식별된다. 식별된 리소스들은 소스 언어로 번역된다. 번역된 리소스들에 상응하는 검색 결과들이 제시된다.
교차-언어, 검색, 편집, 질의, 번역, 소스 언어, 타겟 언어, 제시, 검색 결과

Description

교차 언어 정보 검색{Cross-language information retrieval}
본 출원은 2007년 5월 16일 출원된 미국 가출원 60/938,448호 및 2008년 4월 29일 출원된 미국 출원 12/111,888호에 대한 우선권을 주장한다. 상기 미국 출원들은 전체가 본 출원에 참조로서 포함된다.
본 명세서의 주제(subject matter)는 전반적으로 검색 시스템과 관련된다.
월드와이드웹(World Wide Web; 이하 "웹")에는 역사적으로 영어 컨텐츠가 압도적으로 많다. 오늘날, 비영어(non-English) 사용자 및 컨텐츠 프로바이더의 수가 증가하여, 상당한 양의 비영어 컨텐츠가 웹에 있다. 영어가 모국어인 사람도 비영어 컨텐츠에 포함된 정보와 지식에 액세스하여 이익을 얻을 수 있고, 그 역도 가능하다. 종래의 기계 번역 도구들은 한 언어로부터 다른 언어로 컨텐츠를 번역하는데 사용될 수 있다.
일반적으로, 본 명세서에 설명된 주제의 일 특징은, 소스 언어로 된 소스 질의를 수신하는 단계; 상기 소스 질의를, 상기 소스 언어와 다른 제1 타겟 언어로 된 후보 질의로 번역하는 단계; 상기 후보 질의를, 상기 제1 타겟 언어로 된 제1 타겟 질의로 수정하는 입력을 수신하는 단계; 상기 제1 타겟 질의를 충족하는, 상기 제1 타겟 언어로 된 하나 이상의 리소스들을 식별하는 단계; 상기 식별된 리소스들을, 상기 소스 언어로 된 상응하는 번역된 리소스들로 번역하는 단계; 및 상기 번역된 리소스들에 상응하는 검색 결과들을 제시하는 단계를 구비하는 방법으로 구현될 수 있다. 이 특징의 다른 실시예들은 상응하는 시스템들, 장치들, 컴퓨터 프로그램 제품들, 및 컴퓨터 판독가능 매체를 포함한다.
일반적으로, 본 명세서에 설명된 주제의 다른 특징은, 소스 언어, 상기 소스 언어로 된 질의, 및 타겟 언어를 지정하는 하나 이상의 사용자 입력을 수신하는 단계; 상기 질의의 상기 타겟 언어로의 번역을 제시하는 단계; 상기 질의의 번역을 수정하는 사용자 입력을 수신하는 단계; 및 상기 질의의 수정된 번역을 충족하는, 상기 타겟 언어로 된 하나 이상의 검색 결과의 상기 소스 언어로의 번역들을 제시하는 단계를 구비하는 방법으로 구현될 수 있다. 이 특징의 다른 실시예들은 상응하는 시스템들, 장치들, 컴퓨터 프로그램 제품들, 및 컴퓨터 판독가능 매체를 포함한다.
일반적으로, 본 명세서에 설명된 주제의 다른 특징은, 검색 인터페이스를 디스플레이 디바이스 상에 디스플레이하는 단계로서, 상기 검색 인터페이스는, 소스 언어로 된 질의의 제1 사용자 입력을 수신하는 제1 필드(field), 상기 소스 언어를 지정하는 제2 사용자 입력을 수신하는 제2 필드, 및 타겟 언어를 지정하는 제3 사용자 입력을 수신하는 제3 필드를 포함하는 상기 디스플레이하는 단계; 상기 제1,2 및 3 사용자 입력들에 기초하여, 상기 디스플레이 디바이스 상에 제1 결과 인터페이스를 생성하는 단계로서, 상기 제1 결과 인터페이스는, 상기 질의의 상기 타겟 언어로의 번역, 및 상기 질의의 번역을 수정하는 제4 사용자 입력을 수신하는 제4 필드를 포함하는 상기 생성하는 단계; 및 상기 제1,2,3 및 4 입력들에 기초하여, 상기 디스플레이 디바이스 상에 제2 결과 인터페이스를 생성하는 단계로서, 상기 제2 결과 인터페이스는 상기 질의의 수정된 번역을 충족하는, 상기 타겟 언어로 된 하나 이상의 검색 결과의 상기 소스 언어로의 번역들을 포함하는 상기 생성하는 단계를 구비하는 방법으로 구현될 수 있다. 이 특징의 다른 실시예들은 상응하는 시스템들, 장치들, 컴퓨터 프로그램 제품들, 및 컴퓨터 판독가능 매체를 포함한다.
본 명세서에 설명된 주제의 특정 실시예들은 후술하는 특징들 중 하나 이상을 실현하도록 구현될 수 있다. 검색 결과들을 세밀화(refine)하도록 사용자들은 번역된 검색 질의를 상호작용형 교차-언어 검색에 의해 수정할 수 있다. 타겟 언어를 조금 아는 사용자들은 이 교차-언어 검색에 의해, 타겟 언어로 된 유용한 검색 질의들을 만들 수 있다.
본 명세서에 설명된 주제의 하나 이상 실시예의 상세 내용들은 첨부 도면들과 아래 상세한 설명에 개시된다. 본 주제의 다른 이점, 특징들, 장점들은 상세한 설명, 도면들 및 청구항들로부터 자명하게 된다.
도1은 네트워크 환경을 예시하는 블록도이다.
도2는 예시적 교차-언어 정보 검색(cross-language information retrieval; CLIR) 시스템을 도시하는 블록도이다.
도3은 컨텐츠를 교차-언어 검색하는 예시적 프로세스를 도시하는 흐름도이 다.
도4a~4c는 교차-언어 컨텐츠 검색을 위한 예시적인 사용자 인터페이스를 도시한다.
도5는 예시적 컴퓨터 시스템을 도시하는 블록도이다.
도6은 컨텐츠를 교차-언어 검색하는 또 다른 예시적 프로세스를 도시하는 흐름도이다.
여러 도면에 있어서 유사한 참조 번호와 기호들은 동일한 요소를 가리킨다.
도1은 검색 시스템(104), 번역 시스템(106), 교차-언어 정보 검색(CLIR) 시스템(108), 및 사용자 클라이언트(102)를 포함할 수 있는 네트워크 환경(100)을 예시한다. 이 구성요소들은 하나 이상의 네트워크(110)를 통해 통신할 수 있다. 네트워크들(110)은 예를 들어, 근거리 네트워크(local area network), 광역 네트워크(wide area network), 무선 네트워크, 이동전화 네트워크, 및 인터넷을 포함한다.
검색 시스템(104)은 리소스 서버들(resource servers)이 보유하는 리소스들을 색인화한다. 검색 시스템(104)은 색인화 가능한 리소스들을 식별하기 위하여 리소스 서버들을 크롤(crawl)한다. 일부 구현예에서, 검색 시스템(104)은 색인화된 리소스들의 카피들을 또한 저장할 수 있다. 검색 시스템(104)에 의해 크롤되고 색인화된 리소스들은 서로 다른 언어로 된 리소스들을 포함한다. 리소스들의 예에는 웹페이지들, 오디오 파일들, 비디오 파일들, 휴대문서포맷(PDF) 문서들, 텍스트 파 일들, 워드 프로세싱 문서들, 이미지들 등이 있다. 리소스는 하나 이상의 언어 구성요소(예를 들어, 상응하는 언어(영어, 프랑스어, 독일어, 중국어 등)의 지식으로 이해할 수 있는 텍스트, 음성, 노래의 가사 등)를 가질 수 있다.
검색 시스템(104)은 리소스들에 대한 질의들을 예를 들어, 사용자 클라이언트(102)로부터 수신하고, 각각의 질의에 대하여, 그 질의를 충족하는 색인화된 리소스들을 색인에서 검색한다. 질의는 하나 이상의 용어(예를 들어, 단어들, 구들(phrases), 문자들, 표의 문자들, 숫자들 등)를 포함한다. 질의는 하나 이상의 언어 중 임의 언어로 제시될 수 있다. 검색 결과들은 검색 시스템(104)으로부터 사용자 클라이언트(102)에 전송되어 사용자에게 제시된다. 검색 결과들은, 질의를 충족하는 색인화된 리소스들의 추출들(예를 들어, 스니펫들(snippets)) 및 이 리소스들로의 링크들을 포함할 수 있다.
번역 시스템(106)은 리소스들을 한 언어로부터 다른 언어로 번역한다. 일부 구현예에서, 번역 시스템(106)은 번역될 리소스들을, 직접 입력(예를 들어, 텍스트 필드에 입력된 텍스트)으로서 또는 번역될 리소스에 대한 URL(Universal Resource Locator)로서 수신할 수 있다. 번역 시스템(106)은 다양한 기계 번역 기술들(예를 들어, 다양한 통계 또는 예제-기반 기계 번역 기술들) 중 임의의 것을 사용하여 리소스들을 번역하도록 구현될 수 있다. 일부 구현예에서, 번역 시스템(106)은 리소스들을 한 언어로부터 다른 언어로 번역하는 특정 번역 모델에 기초한 통계적 기술을 사용하여 리소스들을 번역한다. 일부 구현예에서, 번역 시스템(106)은 다중 언어를 지원한다. 번역 시스템(106)은 번역될 리소스와 함께, 그 리소스의 소스 언어 및 그 리소스가 번역될 타겟 언어의 상세(specification)를 수신한다.
일부 구현예에서, CLIR 인터페이스(108)는 교차-언어 정보 검색을 촉진하여, 사용자가 한 언어(예를 들어, 사용자가 능숙한 언어)에서, 하나 이상의 다른 언어로 된 리소스들을 검색할 수 있게 한다. CLIR 인터페이스(108)는 검색 시스템(104) 및 번역 시스템(106)과 통신한다. CLIR 인터페이스(108)는 제1 언어로 된 질의를 사용자 클라이언트(102)로부터 수신할 수 있다. 수신된 질의는 제2 언어로 번역된다. 검색 결과들은 제2 언어로 번역된 질의를 충족하는 리소스들의 번역(제2 언어로부터 제1 언어로 번역)에 대한 링크들을 포함할 수 있다. CLIR 인터페이스(108)는 검색 결과들을 사용자 클라이언트(102)에 전송한다. 검색 결과들은 제2 언어로 번역된 질의를 충족하는 리소스들로부터의 스니펫들의 번역(제2 언어로부터 제1 언어로의 번역)을 포함할 수 있다.
사용자 클라이언트(102)는 CLIR 인터페이스(108), 및 선택적으로는 검색 시스템(104) 및 번역 시스템(106)과 하나 이상의 네트워크(110)를 통해 데이터 통신하는 임의의 디바이스일 수 있다. 일부 구현예에서, 사용자 클라이언트(102)는 클라이언트 애플리케이션(예를 들어, 웹브라우저)을 포함하고, 이 애플리케이션은 CLIR 인터페이스(108), 검색 시스템(104), 및/또는 번역 시스템(106)에 액세스할 수 있다. 사용자 클라이언트들의 예에는 데스크톱 컴퓨터, 노트북 컴퓨터, 테블릿 컴퓨터, 개인정보단말(PDA), 모바일폰, 스마트폰, 미디어 플레이어, 게임 콘솔, 휴대용 게임 디바이스, 또는 셋탑 박스가 있다.
도2는 CLIR 시스템(200)을 도시한다. CLIR 시스템(200)은 검색 엔진(202), 번역 엔진(210), 및 CLIR 엔진(216)을 포함한다. 검색 엔진(202), 번역 엔진(210), 및 CLIR 엔진(216)은 하나 이상의 네트워크(226)를 통해 데이터 통신한다.
검색 엔진(202)은 검색 모듈(204), 관계 질의 모듈(related queries module; 206), 및 리소스들의 색인(208)을 포함한다. 일부 구현예에서, 검색 엔진(202)은 검색 시스템(예를 들어, 검색 시스템(104))의 일부이다.
검색 모듈(204)은 검색 질의들을 수신하고, 수신된 검색 질의들 또는 이 질의들의 번역들을 충족하는 리소스들을 식별하기 위하여 색인(208)을 사용한다. 관계 질의 모듈(206)은 하나의 질의에 대하여 관계된 질의들을 식별한다. 일부 구현예에서, 관계 질의들은 질의 내 하나 이상의 용어의 유의어들(synonyms), 질의 및 부가적 용어들의 조합들, 하나 이상의 용어가 제거된 질의, 및/또는 질의 내 용어들의 재배열들을 포함할 수 있다. 다른 구현예에서, 관계 질의들은 질의에 대한 하나 이상의 제안 수정(suggested correction)을 포함할 수 있다(예를 들어, 제안 철자 수정). 색인(208)은 검색 엔진(202)이 크롤한 리소스들의 색인이다. 색인(208)은 다중 언어들로부터의 리소스들을 색인할 수 있다. 일부 구현예에서, 검색 엔진(202)은 색인화된 리소스들의 카피들 및/또는 추출들을 또한 저장할 수 있다.
번역 엔진(210)은 번역 모듈(212)을 포함한다. 번역 모듈(212)은 제1 언어로 된 입력 텍스트를 수신하고, 그 입력 텍스트를 다른 언어로 된 출력 텍스트로 번역한다. 일부 구현예에서, 번역 엔진(210)은 하나 이상의 번역 모델(214)을 또한 포함한다. 번역 모듈(212)은 번역 프로세스 동안 번역 모델(214)을 사용할 수 있다. 다른 번역 모델들이 다른 언어 조합들을 번역하기 위하여 사용될 수 있다(예를 들 어, 중국어를 아랍어로 번역하는데 사용되는 번역 모델과 다른 번역 모델이 영어를 프랑스어로 번역하기 위하여 사용될 수 있다). 일부 구현예에서, 번역 엔진(210)은 추후의 검색을 위해 번역들을 저장한다(예를 들어, 캐시나 데이터베이스에 저장).
번역 엔진(210)은 번역될 텍스트 입력을, 직접 입력(예를 들어, 사용자가 온라인 양식에 텍스트 입력을 타이핑하고, 그 텍스트를 제출함)으로서 또는 번역될 텍스트가 있는 페이지에 대한 URL로서 수신할 수 있다. URL의 경우에, 번역 모듈(212)은 URL로 지정된 위치에서 텍스트를 검색하고, 계속하여 그 검색된 텍스트를 번역한다. 일부 구현예에서, 번역을 위한 번역 엔진(210)으로의 입력들은 검색 엔진(202)이 수신한 질의들을 또한 포함한다.
일부 구현예에서, 번역 엔진(210)은 번역 시스템(예를 들어, 번역 시스템(106))의 일부이다.
CLIR 엔진(216)은 CLIR 프론트-엔드(front-end; 218), CLIR 모듈(220)을 포함한다. CLIR 프론트-엔드(218)는 CLIR 엔진의 사용자 인터페이스를 생성한다. 예를 들어, 일부 구현예에서, 사용자가 클라이언트 애플리케이션(224)으로부터 CLIR 엔진(216)에 액세스할 때, 클라이언트 애플리케이션(224)이 디스플레이하는 사용자 인터페이스는 CLIR 프론트-엔드(218)에 의해 생성된다. CLIR 모듈(220)은 아래에서 자세히 설명하는 바와 같이, 컨텐츠를 교차-언어 검색한다.
일부 구현예에서, CLIR 엔진(216)은 CLIR 인터페이스(예를 들어, CLIR 인터페이스(108))의 일부이다.
일부 구현예에서, CLIR 엔진은 다른 언어의 사용자 인터페이스(예를 들어, 중국어 사용자 인터페이스 또는 영어 사용자 인터페이스)를 제공할 수 있다. 더욱이, 사용자 인터페이스의 언어는 질의의 소스 언어 또는 결과 결과들에 상응하는 컨텐츠의 타겟 언어와 동일할 필요는 없다.
사용자 클라이언트(222)는 CLIR 엔진(216) 및 선택적으로는 검색 엔진(202) 및 번역 엔진(210)에 대한 액세스를 네트워크들(226)을 통해 제공하는 디바이스일 수 있다. 사용자 클라이언트(222)는 CLIR 프론트-엔드(218)가 생성한 사용자 인터페이스를 제시할 수 있는 클라이언트 애플리케이션(224)을 포함할 수 있다. 일부 구현예에서, 클라이언트 애플리케이션(224)은 웹브라우저이고, CLIR 프론트-엔드(218)가 생성한 사용자 인터페이스는 웹-기반 인터페이스이다.
도3은 리소스들을 교차-언어 검색하는 프로세스(300)를 예시한다. 프로세스(300)는 한 언어로 된 리소스들을 다른 언어로 입력된 검색 질의를 사용하여 검색하는 것을 수월하게 한다. 편의를 위해, 프로세스(300)는 프로세스(300)를 실행하는 시스템(예를 들어, CLIR 시스템(200))을 참조하여 아래에 설명된다.
시스템은 사용자가 제출한 질의를 수신한다(302). 사용자 클라이언트(222)의 사용자는 CLIR 프론트-엔드(218)가 생성한 사용자 인터페이스에 액세스하고 특정 언어("소스 언어")로 된 질의("소스 질의")를 입력한다. 소스 질의는 사용자 클라이언트(222)로부터 CLIR 엔진(216)에 보내진다. 사용자 클라이언트(222)의 사용자는 소스 언어와 타겟 언어를 지정하는 입력을 또한 제공하고, 이 입력은 CLIR 엔진(216)에 보내진다. 예를 들어, 사용자가 영어로 작성된 질의를 제출하고, 일본어 컨텐츠를 검색하길 원하면, 사용자는 소스 언어로서 영어, 타겟 언어로서 일본어를 지정한다. 일부 구현예에서, 소스 질의는 2개 이상의 언어로 하이브리드 질의를 형성하는 내용을 포함할 수 있다(예를 들어, 사용자가 타겟 언어를 조금 알지만, 완전한 질의를 작성할 정도는 아닐 때). 예를 들어, 밀라노의 오페라 극장 부근에 있는 호텔과 레스토랑을 찾고 있는 사용자는 이탈리아어로 된 오페라 극장 이름을 포함하는 질의("hotels and restaurants near Teatro Alla Scala in Milano")를 입력할 수 있다. 사용자는 이탈리아어 리소스들이 검색되고 검색 결과들이 영어로 제시되도록 하기 위하여, 영어를 소스 언어로, 이탈리아어를 타겟 언어로 지정할 수 있다.
시스템은 소스 질의를 타겟 언어로 번역하여 소스 질의를 번역된 질의로 변환한다(304). 예를 들어, CLIR 모듈(220)은 소스 질의를 번역 엔진(210)에 보낸다. 번역 모듈(212)은 소스 언어로 제공된 소스 질의를 타겟 언어로 번역한다. 번역 엔진(210)은 번역된 질의를 CLIR 엔진(216)에 되돌려 보낸다.
질의가 복수의 가능한 번역들을 가지면, 번역 모듈(212)은 복수의 가능한 번역들 중 하나를 번역된 질의로서 선택한다. 예를 들어, 모델-기반 통계적 기계 번역 기술을 사용하는 번역 엔진에 있어서, 언어 모델에 기초하여 가장 높은 가능성을 갖는 번역이 선택될 수 있다. 일부 구현예에서, 다른 가능한 번역들이 사용자에게 제시될 수 있으며, 이점에 대하여 아래에서 상세히 설명한다. 번역 모듈(212)이 오직 하나의 번역만을 제공하면, 그것이 번역된 질의로서 사용된다.
일부 구현예에서, 시스템은 번역된 질의를 수정하는 사용자 입력을 수신할 수 있다. 예를 들어, 번역된 질의가 사용자에게 디스플레이된 후, 사용자는 번역된 질의를 수동으로 편집하거나, 또는 소스 질의의 하나 이상 대안적 번역들 및/또는 번역된 질의에 관계된 질의들로부터 선택할 수 있다. 일부 구현예에서, 관계 질의 모듈(206)이 관계 질의들을 결정한다. 편집된 "번역된 질의", 또는 관계 질의들이나 대안적 번역들로부터의 선택은 신규의 번역된 질의가 된다.
시스템은 번역된 질의를 충족하는, 타겟 언어로 된 리소스들("원 리소스들")을 식별한다(306). 예를 들어, CLIR 모듈(220)은 번역된 질의를 검색 엔진(202)에 보낸다. 검색 모듈(204)은 타겟 언어로 된 리소스들을 색인(208)에서, 번역된 질의를 사용해 검색한다. 식별된 리소스들의 URLs 및 선택적으로는 리소스들의 카피 또는 추출들은 CLIR 엔진(216)에 보내진다.
시스템은 식별된 원 리소스들을 소스 언어의 상응하는 번역된 리소스들로 번역한다(308). 예를 들어, CLIR 모듈(220)은 원 리소스들의 URLs을 번역 엔진(210)에 보낸다. 번역 모듈(212)은 URLs로부터 원 리소스들을 검색하고, 검색된 원 리소스들을 번역하고, 번역된 리소스들을 CLIR 모듈(220)에 보낸다.
일부 구현예에서, 식별된 원 리소스들은 전부가 번역되는 것은 아니다. 원 리소스들의 일부(예를 들어, 리소스 내 텍스트의 스니펫들, 리소스들의 제목들, 하이퍼링크들 등)는 처음에 번역될 수 있다. 사용자가 번역된 리소스에 상응하는 검색 결과를 선택하면, 상응하는 원 리소스의 전부가 번역된다.
시스템은 검색 결과들을 제시한다(310). 일부 구현예에서, CLIR 프론트-엔드(218)는 소스 언어로 번역된 리소스들 및 타겟 언어로 된 원 리소스들로부터 검색 결과 페이지(예를 들어, 사용자 인터페이스(400; 도4a-4c))를 생성한다. 검색 결과 페이지는 번역된 리소스들로의 하이퍼링크들, 및 선택적으로는, 번역된 리소스들의 소스 언어로 된 컨텐츠(예를 들어, 스니펫들)의 부분들을 포함한다. 검색 결과 페이지는 원 리소스들로의 하이퍼링크들, 및 타겟 언어로 된 원 리소스들의 스니펫들을 또한 포함한다. 검색 결과 페이지는 사용자에게 제시하기 위하여 사용자 클라이언트(222)에 전송된다. 일부 구현예에서, 검색 엔진(202)은 검색 결과 페이지를 생성하고 그 검색 결과들을 사용자에게 전송한다.
일부 구현예에서, 사용자는 검색 결과 페이지 내 원 리소스들의 스니펫들 및 원 리소스들로의 하이퍼링크들을 숨길 수 있다. 또한, 검색 결과 페이지는 선택적으로 소스 질의 및 번역된 질의를 또한 디스플레이할 수 있다.
일부 구현예에서, 시스템은 소스 질의의 번역(즉, 번역된 질의)에 관계된, 타겟 언어로 된 질의들을 식별한다. 일부 구현예에서, 관계 질의 모듈(206)은 번역된 질의와 관계된, 타겟 언어로 된 질의들을 식별한다. 관계 질의들은 번역된 질의 내 하나 이상의 용어의 유의어들, 번역된 질의 및 부가적 용어들의 조합들, 번역된 질의의 리워딩들(rewordings), 번역된 질의의 머리글자들(acronyms), 번역된 질의 내 용어들의 재배열들, 및 하나 이상의 용어가 제거된 번역된 질의 등을 포함할 수 있다. 일치하는(matching) 리소스들의 예측 개수(즉, 검색 결과들의 예측 개수) 및/또는 관계 질의들에 대한 품질 점수들(quality scores)이 결정될 수 있다. 일부 구현예에서, 일치하는 리소스들의 예측 개수가 미리 정의된 임계값(예를 들어, 1000)보다 작은 관계 질의들은 무시될 수 있다. 일부 다른 구현예에서, 품질 점수들이 미리 정의된 임계값보다 작은 관계 질의들은 무시될 수 있다. 나머지 관계 질 의들은 소스 질의의 타겟 언어로의 번역(즉, 번역된 질의)과 함께, 검색 결과 페이지에서 사용자에게 제시된다. 사용자는 선택된 관계 질의를 사용하여 검색을 개시하기 위하여, 관계 질의들 중 하나를 선택할 수 있다.
일부 구현예에서, 관계 질의 모듈(206)은 소스 질의와 관계된, 소스 언어로 된 질의들을 식별한다. 이 관계 질의들은 소스 질의 내 하나 이상의 용어의 유의어들, 소스 질의 및 부가적 용어들의 조합들, 소스 질의의 리워딩들, 소스 질의의 머리글자들, 소스 질의 내 용어들의 재배열들, 및 하나 이상의 용어가 제거된 소스 질의 등을 포함할 수 있다. 일치하는 리소스들의 예측 개수(즉, 검색 결과들의 예측 개수) 및/또는 관계 질의들에 대한 품질 점수들이 결정될 수 있다. 일부 구현예에서, 일치하는 리소스들의 예측 개수가 미리 정의된 임계값(예를 들어, 1000)보다 작은 관계 질의들은 무시될 수 있다. 일부 다른 구현예에서, 품질 점수들이 미리 정의된 임계값보다 작은 관계 질의들은 무시될 수 있다. 나머지 관계 질의들은 소스 질의 및 소스 질의의 번역과 함께, 검색 결과 페이지에서 사용자에게 제시될 수 있다. 사용자는 선택된 관계 질의의 타겟 언어로의 번역을 사용하여 검색하기 위하여, 관계 질의들 중 하나를 선택할 수 있다. 즉, 선택된 관계 질의는 새로운 소스 질의가 된다.
관계 질의의 제시 예들은 도4b-4c를 참조하여 아래에서 추가로 설명된다.
도6은 리소스들을 교차-언어 검색하는 프로세스(600)를 예시한다. 프로세스(600)는 한 언어로 된 리소스들을 다른 언어로 입력된 검색 질의를 사용하여 검색하는 것을 수월하게 한다. 편의를 위해, 프로세스(600)는 프로세스(600)를 실행 하는 시스템(예를 들어, CLIR 시스템(200))을 참조하여 아래에 설명된다.
시스템은 사용자가 제출한 질의를 수신한다(602). 사용자 클라이언트(222)의 사용자는 CLIR 프론트-엔드(218)가 생성한 사용자 인터페이스에 액세스하고 특정 언어("소스 언어")로 된 질의("소스 질의")를 입력한다. 소스 질의는 사용자 클라이언트(222)로부터 CLIR 엔진(216)에 보내진다. 사용자 클라이언트(222)의 사용자는 소스 언어와 타겟 언어를 지정하는 입력을 또한 제공하고, 이 입력은 CLIR 엔진(216)에 보내진다. 예를 들어, 사용자가 영어로 작성된 질의를 제출하고, 일본어 컨텐츠를 검색하길 원하면, 사용자는 소스 언어로서 영어, 타겟 언어로서 일본어를 지정한다. 일부 구현예에서, 소스 질의는 2개 이상의 언어로 하이브리드 질의를 형성하는 내용을 포함할 수 있다(예를 들어, 사용자가 타겟 언어를 조금 알지만, 완전한 질의를 작성할 정도는 아닐 때). 예를 들어, 밀라노의 오페라 극장 부근에 있는 호텔과 레스토랑을 찾고 있는 사용자는 이탈리아어로 된 오페라 극장 이름을 포함하는 질의("hotels and restaurants near Teatro Alla Scala in Milano")를 입력할 수 있다. 사용자는 이탈리아어 리소스들이 검색되고 검색 결과들이 영어로 제시되도록 하기 위하여, 영어를 소스 언어로, 이탈리아어를 타겟 언어로 지정할 수 있다.
시스템은 소스 질의를 타겟 언어로 된 후보 질의로 번역한다(604). 예를 들어, CLIR 모듈(220)은 소스 질의를 번역 엔진(210)에 보낸다. 번역 모듈(212)은 소스 언어로 된 소스 질의를 타겟 언어로 번역한다. 번역 엔진(210)은 후보 질의를 CLIR 엔진(216)에 되돌려 보낸다. 다음, 후보 질의는 사용자 클라이언트(222)에 전 송되어 사용자에게 제시될 수 있다.
질의가 복수의 가능한 번역들을 가지면, 번역 모듈(212)은 복수의 가능한 번역들 중 하나를 후보 질의로서 선택한다. 예를 들어, 모델-기반 통계적 기계 번역 기술을 사용하는 번역 엔진에 있어서, 언어 모델에 기초하여 가장 높은 가능성을 갖는 번역이 선택될 수 있다. 일부 구현예에서, 다른 가능한 번역들이 사용자에게 제시될 수 있으며, 이에 대한 상세한 내용은 아래에서 설명한다. 번역 모듈(212)이 오직 하나의 번역만을 제공하는 경우, 이 번역은 후보 질의로서 사용된다.
시스템은 후보 질의를 타겟 언어로 된 수정된 질의(modified query)로 수정하는 입력을 수신한다(606). 시스템은 후보 질의를 수정하는 사용자 입력을 수신할 수 있다. 예를 들어, 소스 질의가 후보 질의로 번역된 후, 후보 질의는 사용자에게 제시된다. 후보 질의와 관계된 소스 질의 또는 질의들의 하나 이상의 대안적 번역이 또한 사용자에게 제시될 수 있다. 사용자는 후보 질의를 수동으로 편집하거나, 또는 후보 질의와 관계된 소스 질의 또는 질의들의 타겟 언어로의 대안적 번역들 중 하나를 선택하여, 후보 질의를 수정할 수 있다. 수동으로 편집된 후보 질의, 또는 관계 질의들이나 대안적 번역들로부터의 선택은 수정된 질의가 된다.
일부 구현예에서, 후보 질의도 프로세스(300)에 따라서 검색 결과들과 함께 제시되는 번역된 질의이다. 예를 들어, 프로세스(300)에 따라서, 소스 질의는 번역되어 번역된 질의로 되고, 이 번역된 질의가 사용되어 검색이 수행된다. 검색 결과 페이지는 번역된 질의를 텍스트 필드에 제시할 수 있고, 사용자는 번역된 질의를 텍스트 필드에서 편집할 수 있다. 검색 결과 페이지는 번역된 질의들과 관계되는 대안적 번역들의 메뉴를 또한 제시할 수 있다. 이 대안적 번역들은 소스 질의 또는 질의들의 타겟 언어로의 번역이다. 사용자는 번역된 질의를 편집하거나, 또는 메뉴로부터 대안적 번역 또는 관계 질의를 선택할 수 있다. 편집된 질의, 또는 메뉴로부터의 선택은 수정된 질의이며, 아래에 설명되는 바와 같이, 검색은 이 수정된 질의로 수행될 수 있다.
시스템은 수정된 질의를 충족하는, 타겟 언어로 된 리소스들("원 리소스들")을 식별한다(608). 예를 들어, CLIR 모듈(220)은 수정된 질의를 검색 엔진(202)에 보낸다. 검색 모듈(204)은 타겟 언어로 된 리소스들을 색인(208)에서, 수정된 질의를 사용해 검색한다. 식별된 리소스들의 URLs 및 선택적으로는 이 리소스들의 카피 또는 추출들은 CLIR 엔진(216)에 보내진다.
시스템은 식별된 원 리소스들을 소스 언어의 상응하는 번역된 리소스들로 번역한다(610). 예를 들어, CLIR 모듈(220)은 리소스들의 URLs을 번역 엔진(210)에 보낸다. 번역 모듈(212)은 URLs로부터 리소스들을 검색하고, 검색된 리소스들을 번역하고, 번역된 리소스들을 CLIR 모듈(220)에 보낸다.
일부 구현예에서, 식별된 리소스들은 전부가 번역되는 것은 아니다. 리소스들의 일부(예를 들어, 리소스들 내 텍스트의 스니펫들, 리소스들의 제목들, 하이퍼링크 텍스트 등)가 처음에 번역될 수 있다. 사용자가 번역된 리소스를 선택하면, 상응하는 리소스의 전부가 번역된다.
시스템은 검색 결과들을 제시한다(612). 일부 구현예에서, CLIR 프론트-엔드(218)는 소스 언어로 번역된 리소스들 및 타겟 언어로 된 원 리소스들로부터 검 색 결과 페이지(예를 들어, 사용자 인터페이스(400; 도4a-4c))를 생성한다. 검색 결과 페이지는 번역된 리소스들로의 하이퍼링크들 및 선택적으로는, 번역된 리소스들의 소스 언어로 된 컨텐츠(예를 들어, 스니펫들)의 부분들을 포함한다. 검색 결과 페이지는 원 리소스들로의 하이퍼링크들 및 타겟 언어로 된 원 리소스들의 스니펫들을 또한 포함한다. 검색 결과 페이지는 사용자에게 제시하기 위하여 사용자 클라이언트(222)에 전송된다. 일부 구현예에서, 검색 엔진(202)은 검색 결과 페이지를 생성하고 그 검색 결과들을 사용자에게 전송한다.
도4a-4c는 교차-언어 컨텐츠 검색을 위한 사용자 인터페이스(400)를 예시한다. 일부 구현예에서, 사용자 인터페이스(400)는 웹-기반 인터페이스이다. 인터페이스(400)는 검색 박스(402), 소스 언어 선택 메뉴(406), 및 타겟 언어 선택 메뉴(408)를 포함한다.
검색 박스(402)에 질의가 입력된다. 질의는 소스 언어 선택 메뉴(406)에 나열된 언어들 중 하나로 쓰여질 수 있다. 일부 구현예에서, 사용자는 다국어 입력기(IME)를 사용하여 검색 박스(402)에 질의를 입력한다. 일부 구현예에서, IME는 사용자가 그들의 입력 디바이스(예를 들어, 키보드)와 연관되지 않은 문자들이나 기호들을 입력할 수 있게 하는 프로그램, 애플리케이션, 모듈 등일 수 있다. 예를 들어, QWERTY 키보드를 사용하는 사용자는 중국어 IME 모듈에 의해 중국어 문자들을 입력할 수 있다. 사용자는 소스 언어 메뉴(406)에서 소스 언어를 선택하고, 타겟 언어 메뉴(408)에서 타겟 언어를 선택할 수 있다. 예를 들어, 도4a에서, 입력된 질의는 영어구(English phrase) "beijing maps"이다. 소스 언어는 소스 언어 메 뉴(406)에 표시된 바와 같이 영어이다. 타겟 언어는 타겟 언어 메뉴(408)에 표시된 바와 같이 중국어 간체(simplified Chinese)이다. 사용자가 "검색" 버튼(405)을 누를 때, 질의, 및 소스 언어와 타겟 언어의 지정이 제출된다.
"검색" 버튼(405)이 눌려진 후, 사용자 인터페이스(400)는 검색 박스(402)에 입력된 질의의 번역(404)을 디스플레이하기 위하여 리프레시(refresh)한다. 디스플레이된 번역(404)은 입력된 질의의 소스 언어로부터 타겟 언어로의 번역이다. 사용자 인터페이스(400)는 편집 링크(410)를 또한 포함하고, 사용자는 번역된 질의를 수정하기 위하여 이 링크를 선택할 수 있다. 상세한 사항은 아래에서 설명한다.
리프레시된 사용자 인터페이스(400)는 번역된 질의에 대한 검색 결과들(414) 및 번역된 검색 결과들(412)을 또한 포함한다. 검색 결과들(414)은 번역된 질의(404)를 충족하는, 타겟 언어로 된 리소스들(예를 들어, 웹페이지들 등)을 제시한다. 검색 결과들(414)은 리소스들로의 하이퍼링크들(410) 및 선택적으로는 타겟 언어로 된 리소스들의 스니펫들(422)을 포함한다.
번역된 검색 결과들(412)은 번역된 질의를 충족하는 리소스들의 소스 언어로의 번역들을 나열한다. 즉, 번역된 검색 결과들(412)은 검색 결과들(414)에 상응하는 리소스들의 번역들에 상응한다. 번역된 검색 결과들(412)은 번역된 리소스들로의 하이퍼링크들(416), 및 스니펫들(422)의 번역일 수 있는 스니펫들(418)을 포함한다.
일부 구현예에서, 번역된 검색 결과들(412) 및 검색 결과들(414)은 도4a에 도시된 바와 같이, 인터페이스(400)에 나란히 디스플레이된다. 검색 결과들(414) 내 리소스의 나열은, 번역된 검색 결과들(412) 내 그 리소스의 상응하는 번역의 나열과 나란히 정렬된다. 검색 결과에 대하여 스니펫(예를 들어, 스니펫(422))이 디스플레이되면, 그 스니펫의 번역(예를 들어, 스니펫(418))이 번역된 검색 결과의 나열에 대하여 디스플레이된다. 더욱이, 일부 구현예에서, 검색 결과들(414)은 선택적으로 시야로부터 은닉될 수 있다(예를 들어, "결과들을 숨김(hide results)" 링크(424)를 선택함으로써). 역으로, 검색 결과들이 은닉되었을 때, 결과들은 예를 들어, "결과들을 보임(show results)" 링크 또는 그 밖의 디스플레이 메커니즘을 선택함으로써, 다시 보여질 수 있다(un-hidden).
일부 구현예에서, 도4a에 도시된 바와 같이 나란히 디스플레이하는 것 대신에, 리소스의 나열은 상응하는 번역의 나열과 일렬로(inline) 디스플레이될 수 있다. 예를 들어, 타겟 언어로 된 리소스의 나열(예를 들어, 하이퍼링크, 스니펫)은 상응하는 번역의 나열 바로 아래에 디스플레이될 수 있다. 리소스들의 나열들은 개별적으로는 또는 모두 함께 은닉되거나 또는 다시 보여질 수 있다.
사용자가 편집 링크(410)를 선택하면, 인터페이스(400)는 도4b에 도시된 바와 같은 인터페이스(400)로 리프레시한다. 번역된 질의 박스(424)가 디스플레이되고, 그 박스(424) 내에 번역된 질의가 디스플레이된다. 타겟 언어로 된 질의들의 메뉴(426)가 또한 디스플레이된다. 질의 메뉴(426)는 검색 박스(402)에 있는 소스 질의의 번역된 질의 및/또는 대안적 번역들에 관계된, 타겟 언어로 된 질의들을 디스플레이한다. 예를 들어, 메뉴(426)의 질의들은 번역된 질의의 유의어들, 번역된 질의 및 부가적 용어들의 조합들, 번역된 질의의 리워딩들, 번역된 질의의 머리글 자들, 소스 질의의 대안적 번역들 등을 포함할 수 있다. 일부 구현예에서, 메뉴(426)는, 관계된 질의 또는 대안적 번역 각각에 대하여, 그 질의를 충족하는 리소스들의 예측 개수를 또한 디스플레이한다. 예를 들어, 메뉴(426)에서 관계 질의
Figure 112009076333689-pct00001
는 약 천이백만개 결과들(즉, 타겟 언어로 된 질의를 충족하는 리소스들)을 갖는다. 예시적 구현에서, 메뉴(426)는 각각의 관계 질의 또는 대안적 번역을 충족하는 리소스들의 예측 개수가 미리 정의된 임계값(예를 들어, 1000)보다 큰 관계 질의들 및/또는 대안적 번역들만을 디스플레이한다.
사용자는 번역된 질의 박스(424) 내 질의를, 예를 들어, 다국어 입력기(IME)를 사용하여 편집할 수 있다. 예를 들어, 번역된 질의가 최적의 번역이 아니라고 사용자가 느끼거나, 또는 사용자가 추가적 용어들을 번역된 질의에 추가하기를 바라면, 사용자는 번역된 질의를 편집하고, 편집된 질의를 검색을 위해 제출할 수 있다. 편집된 질의는 소스 질의의 새로운 번역(404)이 되고, 편집된 질의를 충족하는 검색 결과들(412), 및 검색 결과들(412)의 번역들(414)이 디스플레이된다.
일부 구현예에서, 인터페이스(400)는 도4c에 도시된 바와 같이, 검색 박스(402)에 입력된 소스 질의에 관계된 질의들을 디스플레이할 수 있다. 관계 질의들(428)은 소스 질의의 유의어들, 소스 질의 및 부가적 용어들의 조합들, 소스 질의의 리워딩들, 소스 질의의 머리글자들 등을 포함할 수 있다. 관계 질의들(428) 중 하나를 사용자가 선택하면, 선택된 질의는 새로운 소스 질의가 된다.
도 5는 일반 컴퓨터 시스템(500)의 개략도이다. 시스템(500)은 기술(300)과 관 련하여 설명한 동작들을 실행하는 사용될 수 있다. 본 시스템(500)은 프로세서(510), 메모리(520), 저장 디바이스(530) 및 입/출력 디바이스(540)를 포함한다. 구성요소(510, 520, 530 및 540) 각각은 시스템 버스(550)를 통해 상호 접속된다. 프로세서(510)는 시스템(500) 내에서 실행을 위한 명령들을 처리할 수 있다. 이렇게 실행된 명령들은 예를 들어, 검색 엔진(202), 번역 엔진(210), 및/또는 CLIR 엔진(216)인 하나 이상의 구성요소를 구현할 수 있다. 일부 구현예에서, 프로세서(510)는 싱글 쓰레드(single-threaded) 프로세서이다. 다른 구현예에서, 프로세서(510)는 멀티 쓰레드(multi-threaded) 프로세서이다. 프로세서(510)는 메모리(520) 또는 저장 디바이스(530)에 저장된 명령들을 처리하여 입/출력 디바이스(540) 상의 사용자 인터페이스에 대해 그래픽 정보를 디스플레이할 수 있다.
메모리(520)는 휘발성 또는 비휘발성 메모리와 같이, 시스템(500) 내에 정보를 저장하는 컴퓨터 판독가능 매체이다. 메모리(520)는 예를 들어, 컨텐츠 인덱스(208) 또는 언어 모델(214)을 나타내는 데이터 구조들을 저장할 수 있다. 저장 디바이스(530)는 시스템(500)에 대한 비소멸성 저장부를 제공할 수 있다. 저장 디바이스(530)는 플로피디스크 디바이스, 하드디스크 디바이스, 광학디스크 디바이스, 혹은 테이프 디바이스 또는 그 밖의 적절한 비소멸성 저장 수단일 수 있다. 입/출력 디바이스(540)는 시스템(500)에 대한 입/출력 동작을 제공한다. 일부 구현예에서, 입/출력 디바이스(540)는 키보드 및/또는 포인팅 디바이스를 포함한다. 다른 구현예에서, 입/출력 디바이스(540)는 그래픽 사용자 인터페이스(GUI)를 디스플레이하기 위한 디스플레이 유닛을 포함한다.
본 명세서에서 설명한 실시예들 및 그 밖의 실시예들이나 기능적 동작들은 디지털 전자 회로나, 본 명세서에 설명된 구조들 및 이들과 등가인 구조들을 포함하는 컴퓨터 소프트웨어, 펌웨어 또는 하드웨어나, 또는 이들의 조합으로 구현될 수 있다. 설명된 실시예나 그 밖의 실시예는 하나 이상의 컴퓨터 프로그램 제품, 즉, 데이터 프로세싱 장치에 의해 실행되거나 또는 그 장치의 동작을 제어하도록, 컴퓨터 판독가능 매체에 구체화된 컴퓨터 프로그램 명령들의 하나 이상의 모듈로서 구현될 수 있다. 컴퓨터 판독가능 매체는 기계 판독가능 저장 디바이스, 기계 판독가능 저장 기판(substrate), 메모리 디바이스, 기계 판독가능 전파 신호(a machine-readable propagated signal)를 실현하는 조성물, 또는 이들 중 하나 이상의 조합일 수 있다. "데이터 프로세싱 장치"라는 용어는 데이터를 처리하기 위한 모든 장치, 디바이스 및 기계를 포괄하며, 예를 들어, 프로그래머블 프로세서, 컴퓨터 또는 복수의 프로세서나 컴퓨터를 포함한다. 장치는, 하드웨어 외에도, 당해 컴퓨터 프로그램에 대한 실행 환경을 생성하는 코드를 포함한다. 코드는 예를 들어, 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 시스템, 또는 이들 중 하나 이상의 조합을 구성한다. 전파 신호는 인공적으로 생성된 신호(예를 들어, 기계-생성 전기, 광 또는 전자기 신호)로서, 적절한 수신 장치에 전송하기 위한 정보를 인코딩하기 위해 생성된다.
컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 스크립트 또는 코드로도 알려짐)은 컴파일 또는 인터프리터 언어를 포함하는 모든 형태의 프로그래밍 언어로 작성될 수 있으며, 독립형 프로그램이나 모듈, 컴포넌트, 서브루 틴 또는 컴퓨터 환경에서 사용하기에 적합한 그 밖의 유닛을 포함하는 임의의 형태로도 사용될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 반드시 상응해야 하는 것은 아니다. 프로그램은 다른 프로그램 또는 데이터를 보유하는 파일의 일부에 저장되거나(예를 들어, 하나의 마크업 언어 문서 내에 저장되는 하나 이상의 스크립트), 당해 프로그램 전용의 단일 파일에 저장되거나, 또는 다수의 조화된(coordinated) 파일들(예를 들어, 하나 이상의 모듈, 서브 프로그램들, 코드의 부분들을 저장하는 파일들)에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터에서, 또는 한 위치에 배치되거나 또는 다수의 위치에 걸쳐서 분산되고 통신 네트워크에 의해 접속된 다수의 컴퓨터에서 실행되도록 배치될 수 있다.
본 명세서에 설명된 프로세스들과 논리 흐름들은, 입력 데이터에 작용하여 출력을 생성하여 기능들을 수행하도록 하나 이상의 컴퓨터 프로그램을 실행하는 하나 이상의 프로그래머블 프로세서에 의해 수행될 수 있다. 이 프로세스들과 논리 흐름들은 전용 논리 회로(예를 들어, FPGA(field programmable gate array), 또는 ASIC(application specific integrated circuit))에 의해 수행될 수 있고, 장치들은 전용 논리 회로에 의해 구현될 수 있다.
컴퓨터 프로그램의 실행에 적합한 프로세서들에는, 예를 들어, 범용 및 전용 마이크로프로세서들, 및 임의 종류의 디지털 컴퓨터 중 하나 이상의 프로세서가 있다. 일반적으로, 프로세서는 판독 전용 메모리(ROM), 또는 랜덤 액세스 메모리(RAM), 또는 양자 모두로부터 명령들과 데이터를 수신한다. 컴퓨터의 필수 구성요소들은 명령들을 실행하는 프로세서, 및 명령들과 데이터를 저장하는 하나 이상 의 메모리 디바이스이다. 일반적으로, 컴퓨터는 데이터를 저장하기 위해 하나 이상의 대용량 저장 디바이스(예를 들어, 자기 디스크, 광자기 디스크, 또는 광 디스크)를 포함하거나, 또는 이 디바이스들과 데이터를 송수신하기 위하여 동작가능하게 결합될 수 있다. 하지만 컴퓨터는 이러한 디바이스들을 구비할 필요는 없다. 컴퓨터 프로그램 명령들과 데이터를 저장하기 적합한 컴퓨터 판독가능 매체에는, 예를 들어, 반도체 메모리 디바이스(예를 들어, EPROM, EEPROM, 플래시 메모리 디바이스들); 자기 디스크들(예를 들어, 내부 하드디스크, 착탈식 디스크들); 광자기 디스크들; 및 CD ROM과 DVD-ROM 디스크들을 포함하는 모든 형태의 비휘발성 메모리, 매체 및 메모리 디바이스들이 있다. 프로세서와 메모리는 전용 논리 회로(special purpose logic circuitry)에 의해 보완되거나 또는 전용 논리 회로에 통합될 수 있다.
사용자와의 상호작용을 제공하기 위하여, 설명된 실시예들은, 정보를 사용자에게 디스플레이하기 위한 디스플레이 디바이스(예를 들어, CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터), 키보드 및 포인팅 디바이스(예를 들어, 마우스 또는 트랙볼)를 구비한 컴퓨터에 구현될 수 있다. 사용자는 키보드와 포인팅 디바이스를 이용하여 컴퓨터에 입력을 제공할 수 있다. 사용자와의 상호작용을 제공하기 위하여 다른 종류의 디바이스들이 또한 사용될 수 있다. 예를 들어, 사용자에게 제공되는 피드백(feedback)은 예를 들어, 시각 피드백, 청각 피드백 또는 촉각 피드백인 임의 형태의 감각 피드백일 수 있고, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다.
설명된 실시예들은, 예를 들어, 데이터 서버와 같은 백엔드(back-end) 구성요소를 구비하는 컴퓨팅 시스템; 또는 예를 들어, 애플리케이션 서버와 같은 미들웨어 구성요소를 구비하는 컴퓨팅 시스템; 또는 예를 들어, 사용자가 본 명세서에 설명된 구현예와 상호작용할 수 있는 그래픽 사용자 인터페이스 또는 웹브라우저를 구비한 클라이언트 컴퓨터와 같은 프론트엔드(front-end) 구성요소를 구비하는 컴퓨터 시스템; 또는 이러한 백엔드, 미들웨어 또는 프론트엔드 구성요소들의 임의 조합을 구비하는 컴퓨팅 시스템으로 구현될 수 있다. 시스템의 구성요소들은 디지털 데이터 통신의 임의 형태 또는 매체(예를 들어, 통신 네트워크)에 의해 상호접속될 수 있다. 통신 네트워크들의 예에는 근거리 네트워크(LAN)와 인터넷과 같은 광역 네트워크(WAN)가 있다.
컴퓨팅 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 보통 서로 떨어져 있으며, 일반적으로는 통신 네트워크를 통하여 상호작용한다. 클라이언트와 서버의 관계는 각각의 컴퓨터상에서 실행되고 상호 클라이언트-서버 관계를 갖는 컴퓨터 프로그램들에 의하여 발생한다.
본 명세서가 다수의 특정한 사항을 포함하고 있지만, 이는 발명의 범위나 청구할 사항의 범위에 대한 제한으로서 이해되어서는 안 되며, 특정 실시형태에 고유할 수 있는 특징들의 설명으로서 이해되어야 한다. 별개의 실시형태의 문맥으로 본 명세서에서 설명된 소정 특징들은 조합되어 단일 실시형태로 구현될 수 있다. 반대로, 단일 실시형태의 문맥에서 설명한 다양한 특징들은 복수의 실시형태에서 별개로 구현되거나 어떤 적당한 하위 조합(subcombination)으로서도 구현 가능하다. 또 한, 앞에서 특징들이 소정 조합에서 동작하는 것으로서 설명되고 그와 같이 청구되었지만, 청구된 조합으로부터의 하나 이상의 특징은 일부 경우에 해당 조합으로부터 삭제될 수 있으며, 청구된 조합은 하위 조합이나 하위 조합의 변형으로 될 수 있다.
마찬가지로, 도면에서 특정한 순서로 동작을 묘사하고 있지만, 그러한 동작들이 바람직한 결과를 얻기 위해, 도시한 특정 순서나 순차적인 순서로 수행되어야 한다거나, 설명한 모든 동작들이 수행되어야 한다는 것을 의미하는 것은 아니다. 소정 환경에서, 멀티태스킹 및 병렬 프로세싱이 바람직할 수 있다. 또한, 상술한 실시형태에 있어서 다양한 시스템 구성요소들의 분리는 모든 실시형태에서 그러한 분리를 요구하는 것으로 이해해서는 안 되며, 설명한 프로그램 구성요소들과 시스템들은 단일 소프트웨어 제품으로 통합되거나 또는 복수의 소프트웨어 제품으로 패키지될 수 있다는 점을 이해해야 한다.
이와 같이 특정 실시예들이 설명되었다. 다른 실시예들도 후술하는 청구항의 범위 내에 있다.
본 발명은 새로운 교차-언어 정보 검색 시스템, 방법, 장치 및 컴퓨터 프로그램 제품을 제공한다.

Claims (20)

  1. 방법으로서,
    소스 언어로 된 소스 질의를 수신하는 단계;
    상기 소스 질의를, 상기 소스 언어와 다른 제1 타겟 언어로 된 후보 질의로 번역하는 단계;
    상기 후보 질의를, 상기 제1 타겟 언어로 된 제1 타겟 질의로 수정하는 입력을 수신하는 단계;
    상기 제1 타겟 질의를 충족하는, 상기 제1 타겟 언어로 된 하나 이상의 리소스들을 식별하는 단계;
    상기 하나 이상의 식별된 리소스들을, 상기 소스 언어로 된 하나 이상의 번역된 리소스들로 번역하는 단계; 및
    하나 이상의 상기 번역된 리소스들에 상응하는 검색 결과들을 제시하는 단계를 포함하며,
    상기 소스 질의를 후보 질의로 번역하는 단계는 하나 이상의 후보 번역들 중 하나를 후보 질의로서 선택하는 단계를 포함하고, 상기 하나 이상의 후보 번역들은 상기 소스 질의의 상기 제1 타겟 언어로의 번역들이며,
    상기 후보 질의를 제1 타겟 질의로 수정하는 입력을 수신하는 단계는 상기 후보 질의와는 다른 하나 이상의 후보 번역들 중 하나를 상기 제1 타겟 질의로서 선택하는 입력을 수신하는 단계를 포함하며, 그리고
    상기 후보 질의와는 다른 상기 하나 이상의 후보 번역들은, 각각의 후보 번역을 충족시키는 리소스들의 예측된 개수와 함께 디스플레이되는 것을 특징으로 하는 방법.
  2. 청구항1에 있어서, 상기 검색 결과들과 함께, 하나 이상의 상기 번역된 리소스들 중 적어도 하나의 변환된 리소스의, 소스 언어로 된 스니펫(snippet)을 제시하는 단계를 더 포함하는 방법.
  3. 청구항2에 있어서, 각 번역된 리소스의 스니펫 각각에 대하여, 각 리소스의 상응하는 스니펫을 상기 제1 타겟 언어로 제시하는 단계를 더 포함하고, 상기 번역된 리소스 각각은 리소스 각각의 번역인 방법.
  4. 삭제
  5. 삭제
  6. 청구항1에 있어서,
    상기 소스 질의에 관계된 하나 이상의 질의들을 생성하는 단계; 및
    상기 소스 질의에 관계된 하나 이상의 질의들을 상기 제1 타겟 언어로 된 하나 이상의 후보 관계 질의들(one or more candidated related queries)로 번역하는 단계를 포함하고,
    상기 후보 질의를 제1 타겟 질의로 수정하는 입력을 수신하는 단계는 상기 후보 관계 질의들 중 하나를 상기 제1 타겟 질의로서 선택하는 입력을 수신하는 단계를 포함하는 방법.
  7. 청구항1에 있어서,
    상기 후보 질의에 관계된 하나 이상의 질의들을 식별하는 단계를 더 포함하 고,
    상기 후보 질의를 제1 타겟 질의로 수정하는 입력을 수신하는 단계는 상기 후보 질의에 관계된 질의들 중 하나를 상기 제1 타겟 질의로서 선택하는 입력을 수신하는 단계를 포함하는 방법.
  8. 청구항1에 있어서, 상기 후보 질의를 제1 타겟 질의로 수정하는 입력을 수신하는 단계는 상기 후보 질의를 상기 제1 타겟 질의로 편집하는 사용자 입력을 수신하는 단계를 포함하는 방법.
  9. 소스 언어, 상기 소스 언어로 된 질의, 및 타겟 언어를 지정하는 하나 이상의 사용자 입력들을 수신하는 단계;
    상기 질의의 상기 타겟 언어로의 번역을 제시하는 단계;
    상기 질의의 번역을 수정하는 사용자 입력을 수신하는 단계; 및
    상기 질의의 수정된 번역을 충족하는, 상기 타겟 언어로 된 하나 이상의 검색 결과들의 상기 소스 언어로의 번역들을 제시하는 단계를 포함하며,
    상기 질의의 번역을 제시하는 단계는 상기 질의의 번역에 관련된 상기 타겟 언어로 된 하나 이상의 질의들을 제시하는 단계를 포함하며,
    상기 질의의 번역을 수정하는 사용자 입력을 수신하는 단계는 상기 질의의 번역에 관련된 상기 타겟 언어로 된 상기 하나 이상의 질의들 중 하나를 선택하는 사용자 입력을 수신하는 단계를 포함하며, 그리고
    상기 질의의 번역에 관련된 상기 하나 이상의 질의들은 각각의 질의를 충족시키는 리소스들의 예측된 개수와 함께 디스플레이되는 것을 특징으로 하는 방법.
  10. 삭제
  11. 청구항9에 있어서, 상기 질의의 번역에 관계되고 상기 타겟 언어로 된 하나 이상의 질의들은 상기 질의 번역의 유의어들(synonyms of the translation of the query), 상기 질의 번역들의 머리문자들, 상기 질의의 소스 언어로부터 타겟 언어로의 대안적 번역들, 상기 질의 번역과 하나 이상의 부가적 용어의 조합들로 구성된 그룹 중 적어도 하나를 포함하는 방법.
  12. 삭제
  13. 청구항9에 있어서, 상기 질의의 번역을 수정하는 사용자 입력을 수신하는 단계는 상기 질의의 번역을 편집하는 사용자 입력을 수신하는 단계를 포함하는 방법.
  14. 청구항9에 있어서, 상기 하나 이상의 검색 결과들의 번역들을 제시하는 단계는 상기 하나 이상의 검색 결과들의 번역들의, 상기 소스 언어로 된 스니펫들(snippets)을 제시하는 단계를 포함하는 방법.
  15. 청구항9에 있어서, 상기 질의의 수정된 번역을 충족하는, 상기 타겟 언어로 된 검색 결과들을 제시하는 단계를 더 포함하는 방법.
  16. 청구항15에 있어서, 상기 질의의 수정된 번역을 충족하는, 상기 타겟 언어로 된 검색 결과들을 제시하는 단계는 상기 검색 결과들의 상기 타겟 언어로 된 스니펫들을 제시하는 단계를 포함하는 방법.
  17. 방법으로서,
    검색 인터페이스를 디스플레이 디바이스 상에 디스플레이하는 단계와, 여기서 상기 검색 인터페이스는:
    질의의 제1 사용자 입력을 수신하는 제1 필드(field),
    상기 제1 사용자 입력의 소스 언어를 지정하는 제2 사용자 입력을 수신하는 제2 필드, 및
    타겟 언어를 지정하는 제3 사용자 입력을 수신하는 제3 필드를 포함하며;
    상기 제1,2 및 3 사용자 입력들에 기초하여, 제1 결과 인터페이스를 생성하고 그 제1 결과 인터페이스를 상기 디스플레이 디바이스 상에 디스플레이하는 단계와, 여기서 상기 제1 결과 인터페이스는:
    상기 질의의 상기 타겟 언어로의 번역, 및
    상기 질의의 번역을 수정하는 제4 사용자 입력을 수신하는 제4 필드를 포함하며; 그리고
    상기 제1,2,3 및 4 입력들에 기초하여, 제2 결과 인터페이스를 생성하고 그 제2 결과 인터페이스를 상기 디스플레이 디바이스 상에 디스플레이하는 단계를 포함하며, 상기 제2 결과 인터페이스는 상기 질의의 수정된 번역을 충족하는, 상기 타겟 언어로 된 하나 이상의 검색 결과들의 상기 소스 언어로의 번역들을 포함하며,
    상기 질의의 상기 번역은, 상기 질의의 상기 번역에 관련된 상기 타겟 언어로 된 하나 이상의 질의들을 포함하고,
    상기 제4 사용자 입력은, 상기 질의의 상기 번역에 관련된 상기 타겟 언어로 된 하나 이상의 질의들 중 하나를 선택하는 사용자 입력을 포함하고, 그리고
    상기 질의의 상기 번역에 관련된 상기 하나 이상의 질의들은, 각각의 질의를 충족시키는 리소스들의 예측된 개수와 함께 디스플레이되는 것을 특징으로 하는 방법.
  18. 시스템으로서,
    하나 이상의 프로세서들; 및
    상기 하나 이상의 프로세서들에 의해 실행되도록 구성된 인스트럭션들을 포함하며,
    상기 인스트럭션들은:
    소스 언어로 된 소스 질의를 수신하고;
    상기 소스 질의를, 상기 소스 언어와 다른 제1 타겟 언어로 된 후보 질의로 번역하고;
    상기 후보 질의를, 상기 제1 타겟 언어로 된 제1 타겟 질의로 수정하는 입력을 수신하고;
    상기 제1 타겟 질의를 충족하는, 상기 제1 타겟 언어로 된 하나 이상의 리소스들을 식별하고;
    상기 식별된 하나 이상의 리소스들을, 상기 소스 언어로 된 하나 이상의 번역된 리소스들로 번역하고; 및
    상기 하나 이상의 번역된 리소스들에 상응하는 검색 결과들을 제시하는 인스트럭션들을 포함하며,
    상기 소스 질의를 후보 질의로 번역하는 것은 하나 이상의 후보 번역들 중 하나를 상기 후보 질의로서 선택하는 것을 포함하고, 상기 하나 이상의 후보 번역들은 상기 소스 질의의 상기 제1 타겟 언어로의 번역들이며,
    상기 후보 질의를 제1 타겟 질의로 수정하는 입력을 수신하는 것은, 상기 후보 질의와는 다른 하나 이상의 후보 번역들 중 하나를 상기 제1 타겟 질의로서 선택하는 입력을 수신하는 것을 포함하며, 그리고
    상기 후보 질의와는 다른 상기 하나 이상의 후보 번역들은, 각각의 후보 번역을 충족시키는 리소스들의 예측된 개수와 함께 디스플레이되는 것을 특징으로 하는 시스템.
  19. 컴퓨터 프로그램이 인코딩된 컴퓨터 판독 가능 기록 매체로서,
    상기 컴퓨터 프로그램은 실행시 데이터 처리 장치로 하여금:
    소스 언어로 된 소스 질의를 수신하는 동작;
    상기 소스 질의를, 상기 소스 언어와 다른 제1 타겟 언어로 된 후보 질의로 번역하는 동작;
    상기 후보 질의를, 상기 제1 타겟 언어로 된 제1 타겟 질의로 수정하는 입력을 수신하는 동작;
    상기 제1 타겟 질의를 충족하는, 상기 제1 타겟 언어로 된 하나 이상의 리소스들을 식별하는 동작;
    상기 하나 이상의 식별된 리소스들을, 상기 소스 언어로 된 하나 이상의 번역된 리소스들로 번역하는 동작; 및
    하나 이상의 상기 번역된 리소스들에 상응하는 검색 결과들을 제시하는 동작을 수행하도록 하며,
    상기 소스 질의를 후보 질의로 번역하는 동작은 하나 이상의 후보 번역들 중 하나를 상기 후보 질의로서 선택하는 동작을 포함하고, 상기 하나 이상의 후보 번역들은 상기 소스 질의의 상기 제1 타겟 언어로의 번역들이며,
    상기 후보 질의를 제1 타겟 질의로 수정하는 입력을 수신하는 동작은, 상기 후보 질의와는 다른 하나 이상의 후보 번역들 중 하나를 상기 제1 타겟 질의로서 선택하는 입력을 수신하는 동작을 포함하며, 그리고
    상기 후보 질의와는 다른 상기 하나 이상의 후보 번역들은, 각각의 후보 번역을 충족시키는 리소스들의 예측된 개수와 함께 디스플레이되는 것을 특징으로 하는 컴퓨터 판독 가능 기록 매체.
  20. 시스템으로서,
    소스 언어로 된 소스 질의를 수신하는 수단;
    상기 소스 질의를, 상기 소스 언어와 다른 제1 타겟 언어로 된 후보 질의로 번역하는 수단;
    상기 후보 질의를, 상기 제1 타겟 언어로 된 제1 타겟 질의로 수정하는 입력을 수신하는 수단;
    상기 제1 타겟 질의를 충족하는, 상기 제1 타겟 언어로 된 하나 이상의 리소스들을 식별하는 수단;
    상기 하나 이상의 식별된 리소스들을, 상기 소스 언어로 된 하나 이상의 번역된 리소스들로 번역하는 수단; 및
    하나 이상의 상기 번역된 리소스들에 상응하는 검색 결과들을 제시하는 수단을 포함하며,
    상기 소스 질의를 후보 질의로 번역하는 수단은 하나 이상의 후보 번역들 중 하나를 상기 후보 질의로서 선택하는 수단을 포함하고, 상기 하나 이상의 후보 번역들은 상기 소스 질의의 상기 제1 타겟 언어로의 번역들이며,
    상기 후보 질의를 제1 타겟 질의로 수정하는 입력을 수신하는 수단은, 상기 후보 질의와는 다른 하나 이상의 후보 번역들 중 하나를 상기 제1 타겟 질의로서 선택하는 입력을 수신하는 수단을 포함하며, 그리고
    상기 후보 질의와는 다른 상기 하나 이상의 후보 번역들은, 각각의 후보 번역을 충족시키는 리소스들의 예측된 개수와 함께 디스플레이되는 것을 특징으로 하는 시스템.
KR1020097025825A 2007-05-16 2008-05-16 교차 언어 정보 검색 KR101554293B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US93844807P 2007-05-16 2007-05-16
US60/938,448 2007-05-16
US12/111,888 US8799307B2 (en) 2007-05-16 2008-04-29 Cross-language information retrieval
US12/111,888 2008-04-29

Publications (2)

Publication Number Publication Date
KR20100022467A KR20100022467A (ko) 2010-03-02
KR101554293B1 true KR101554293B1 (ko) 2015-09-30

Family

ID=40028571

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020097025825A KR101554293B1 (ko) 2007-05-16 2008-05-16 교차 언어 정보 검색

Country Status (7)

Country Link
US (1) US8799307B2 (ko)
EP (1) EP2165278A4 (ko)
JP (1) JP5264892B2 (ko)
KR (1) KR101554293B1 (ko)
CN (2) CN105787001A (ko)
BR (1) BRPI0811876A2 (ko)
WO (1) WO2008144538A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190073525A (ko) * 2016-11-04 2019-06-26 구글 엘엘씨 기계 학습 작업의 암시적 브리징

Families Citing this family (104)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8943024B1 (en) 2003-01-17 2015-01-27 Daniel John Gardner System and method for data de-duplication
US8375008B1 (en) 2003-01-17 2013-02-12 Robert Gomes Method and system for enterprise-wide retention of digital or electronic data
US8527468B1 (en) 2005-02-08 2013-09-03 Renew Data Corp. System and method for management of retention periods for content in a computing system
US20080189273A1 (en) * 2006-06-07 2008-08-07 Digital Mandate, Llc System and method for utilizing advanced search and highlighting techniques for isolating subsets of relevant content data
US20100198802A1 (en) * 2006-06-07 2010-08-05 Renew Data Corp. System and method for optimizing search objects submitted to a data resource
US9361294B2 (en) * 2007-05-31 2016-06-07 Red Hat, Inc. Publishing tool for translating documents
US10296588B2 (en) 2007-05-31 2019-05-21 Red Hat, Inc. Build of material production system
US7890493B2 (en) * 2007-07-20 2011-02-15 Google Inc. Translating a search query into multiple languages
US8051061B2 (en) * 2007-07-20 2011-11-01 Microsoft Corporation Cross-lingual query suggestion
US8615490B1 (en) 2008-01-31 2013-12-24 Renew Data Corp. Method and system for restoring information from backup storage media
US7917488B2 (en) * 2008-03-03 2011-03-29 Microsoft Corporation Cross-lingual search re-ranking
US8312032B2 (en) * 2008-07-10 2012-11-13 Google Inc. Dictionary suggestions for partial user entries
US8135580B1 (en) * 2008-08-20 2012-03-13 Amazon Technologies, Inc. Multi-language relevance-based indexing and search
US8577909B1 (en) * 2009-05-15 2013-11-05 Google Inc. Query translation using bilingual search refinements
US8577910B1 (en) * 2009-05-15 2013-11-05 Google Inc. Selecting relevant languages for query translation
US8572109B1 (en) * 2009-05-15 2013-10-29 Google Inc. Query translation quality confidence
US8538957B1 (en) 2009-06-03 2013-09-17 Google Inc. Validating translations using visual similarity between visual media search results
WO2011075610A1 (en) 2009-12-16 2011-06-23 Renew Data Corp. System and method for creating a de-duplicated data set
JP5063676B2 (ja) * 2009-12-28 2012-10-31 ヤフー株式会社 携帯端末にクエリサジェスチョンを送信するWebサーバ、方法及びシステム
US20110184723A1 (en) * 2010-01-25 2011-07-28 Microsoft Corporation Phonetic suggestion engine
EP2572299A1 (en) * 2010-05-17 2013-03-27 Green SQL Ltd Database translation system and method
EP2680162A1 (en) 2010-07-13 2014-01-01 Motionpoint Corporation Localisation of website content
US20120022851A1 (en) * 2010-07-23 2012-01-26 International Business Machines Corporation On-demand translation of application text
US8775156B2 (en) * 2010-08-05 2014-07-08 Google Inc. Translating languages in response to device motion
US10431336B1 (en) 2010-10-01 2019-10-01 Cerner Innovation, Inc. Computerized systems and methods for facilitating clinical decision making
US10734115B1 (en) 2012-08-09 2020-08-04 Cerner Innovation, Inc Clinical decision support for sepsis
US11398310B1 (en) 2010-10-01 2022-07-26 Cerner Innovation, Inc. Clinical decision support for sepsis
US11348667B2 (en) 2010-10-08 2022-05-31 Cerner Innovation, Inc. Multi-site clinical decision support
US8862595B1 (en) 2010-11-23 2014-10-14 Google Inc. Language selection for information retrieval
US8498972B2 (en) * 2010-12-16 2013-07-30 Sap Ag String and sub-string searching using inverted indexes
US10628553B1 (en) 2010-12-30 2020-04-21 Cerner Innovation, Inc. Health information transformation system
CN102651003B (zh) * 2011-02-28 2014-08-13 北京百度网讯科技有限公司 一种跨语言搜索的方法和装置
CN102654867B (zh) * 2011-03-02 2013-12-11 北京百度网讯科技有限公司 一种跨语言搜索中的网页排序方法和系统
EP2702509A4 (en) * 2011-04-28 2015-05-20 Microsoft Technology Licensing Llc SEARCH RESULTS FOR ALTERNATIVE MARKETS
WO2012174736A1 (en) * 2011-06-24 2012-12-27 Google Inc. Detecting source languages of search queries
CN104011712B (zh) * 2011-06-24 2018-04-24 谷歌有限责任公司 对跨语言查询建议的查询翻译进行评价
US8713037B2 (en) 2011-06-30 2014-04-29 Xerox Corporation Translation system adapted for query translation via a reranking framework
US9015143B1 (en) * 2011-08-10 2015-04-21 Google Inc. Refining search results
US8856156B1 (en) 2011-10-07 2014-10-07 Cerner Innovation, Inc. Ontology mapper
US8224836B1 (en) * 2011-11-02 2012-07-17 Google Inc. Searching in multiple languages
KR20130050705A (ko) * 2011-11-08 2013-05-16 삼성전자주식회사 키워드 검색 방법 및 장치
US9348479B2 (en) 2011-12-08 2016-05-24 Microsoft Technology Licensing, Llc Sentiment aware user interface customization
US9378290B2 (en) 2011-12-20 2016-06-28 Microsoft Technology Licensing, Llc Scenario-adaptive input method editor
JP5712150B2 (ja) * 2012-02-22 2015-05-07 株式会社ゼンリンデータコム 検索サーバ装置、情報検索方法および情報検索プログラム
CN103294682A (zh) * 2012-02-24 2013-09-11 摩根全球购物有限公司 多语言检索方法、计算机可读储存媒体及网络搜寻系统
TWI479345B (zh) * 2012-02-24 2015-04-01 Mogan Global Online Shopping Inc 多語言檢索方法、電腦可讀儲存媒體及網路搜尋系統
US10249385B1 (en) 2012-05-01 2019-04-02 Cerner Innovation, Inc. System and method for record linkage
US8543563B1 (en) * 2012-05-24 2013-09-24 Xerox Corporation Domain adaptation for query translation
CN110488991A (zh) 2012-06-25 2019-11-22 微软技术许可有限责任公司 输入法编辑器应用平台
US9239832B2 (en) * 2012-08-03 2016-01-19 Red Hat, Inc. Modifying language of a user interface on a computing device
US8959109B2 (en) 2012-08-06 2015-02-17 Microsoft Corporation Business intelligent in-document suggestions
US9767156B2 (en) 2012-08-30 2017-09-19 Microsoft Technology Licensing, Llc Feature-based candidate selection
CN103729386B (zh) * 2012-10-16 2017-08-04 阿里巴巴集团控股有限公司 信息查询系统与方法
CN102955853B (zh) * 2012-11-02 2019-05-28 北京百度网讯科技有限公司 一种跨语言文摘的生成方法及装置
US20140164422A1 (en) * 2012-12-07 2014-06-12 Verizon Argentina SRL Relational approach to systems based on a request and response model
JP6110647B2 (ja) * 2012-12-10 2017-04-05 株式会社アイ・オー・データ機器 ストリーミングコンテンツ再生用セットトップボックスおよびテレビジョン
US9569080B2 (en) * 2013-01-29 2017-02-14 Apple Inc. Map language switching
US11894117B1 (en) 2013-02-07 2024-02-06 Cerner Innovation, Inc. Discovering context-specific complexity and utilization sequences
US10769241B1 (en) 2013-02-07 2020-09-08 Cerner Innovation, Inc. Discovering context-specific complexity and utilization sequences
US10946311B1 (en) 2013-02-07 2021-03-16 Cerner Innovation, Inc. Discovering context-specific serial health trajectories
US9195651B2 (en) * 2013-03-15 2015-11-24 Google Inc. Techniques for language translation localization for computer applications
CN103268326A (zh) * 2013-05-02 2013-08-28 百度在线网络技术(北京)有限公司 一种个性化的跨语言检索方法及装置
CN104239363A (zh) * 2013-06-24 2014-12-24 上海能感物联网有限公司 非特定人外语语音现场实时查询指路机信息的方法
CN104252450A (zh) * 2013-06-25 2014-12-31 上海能感物联网有限公司 外语文本现场实时查询指路机信息的方法
US9317260B2 (en) * 2013-08-09 2016-04-19 Vmware, Inc. Query-by-example in large-scale code repositories
EP3030982A4 (en) 2013-08-09 2016-08-03 Microsoft Technology Licensing Llc INPUT PROCESSORS EDITOR WITH LANGUAGE SUPPORT
US12020814B1 (en) 2013-08-12 2024-06-25 Cerner Innovation, Inc. User interface for clinical decision support
US10483003B1 (en) 2013-08-12 2019-11-19 Cerner Innovation, Inc. Dynamically determining risk of clinical condition
US10957449B1 (en) 2013-08-12 2021-03-23 Cerner Innovation, Inc. Determining new knowledge for clinical decision support
US20150199339A1 (en) * 2014-01-14 2015-07-16 Xerox Corporation Semantic refining of cross-lingual information retrieval results
US20150220514A1 (en) * 2014-02-04 2015-08-06 Ca, Inc. Data processing systems including a translation input method editor
US9805120B2 (en) * 2014-02-14 2017-10-31 Microsoft Technology Licensing, Llc Query selection and results merging
CN103914539A (zh) * 2014-04-01 2014-07-09 百度在线网络技术(北京)有限公司 信息查询方法和装置
US9524293B2 (en) * 2014-08-15 2016-12-20 Google Inc. Techniques for automatically swapping languages and/or content for machine translation
US10216826B2 (en) * 2014-09-02 2019-02-26 Salesforce.Com, Inc. Database query system
TWI718997B (zh) * 2014-09-30 2021-02-21 日商咕嘟媽咪股份有限公司 菜單生成系統
US10102269B2 (en) * 2015-02-27 2018-10-16 Microsoft Technology Licensing, Llc Object query model for analytics data access
JP6546440B2 (ja) 2015-04-28 2019-07-17 株式会社日立製作所 データ加工支援方法、データ処理サーバおよびプログラム
TWI712899B (zh) 2015-07-28 2020-12-11 香港商阿里巴巴集團服務有限公司 資訊查詢方法及裝置
CN105095512A (zh) * 2015-09-09 2015-11-25 四川省科技交流中心 基于桥梁语的跨语种专用数据检索系统及方法
CN105404688A (zh) * 2015-12-11 2016-03-16 北京奇虎科技有限公司 搜索方法和搜索设备
CN105760531A (zh) * 2016-03-03 2016-07-13 华南师范大学 多语言搜索引擎方法及系统
JP2017167659A (ja) 2016-03-14 2017-09-21 株式会社東芝 機械翻訳装置、方法、およびプログラム
KR102565274B1 (ko) * 2016-07-07 2023-08-09 삼성전자주식회사 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치
JP6809005B2 (ja) * 2016-07-07 2021-01-06 富士ゼロックス株式会社 翻訳装置、翻訳システムおよびプログラム
CN107665218B (zh) * 2016-07-29 2022-12-23 北京搜狗科技发展有限公司 一种搜索方法、装置及电子设备
CN108614830B (zh) * 2016-12-12 2021-08-24 北京搜狗科技发展有限公司 一种搜索结果的展示方法和装置
US20180165337A1 (en) * 2016-12-13 2018-06-14 Ca, Inc. System for Extracting Data from a Database in a User Selected Format and Related Methods and Computer Program Products
CN106919642B (zh) * 2017-01-13 2021-04-16 北京搜狗科技发展有限公司 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
JP6678764B1 (ja) 2018-03-07 2020-04-08 グーグル エルエルシー 多言語での自動化されたアシスタントを用いたエンドツーエンドコミュニケーションの促進
US11386131B2 (en) * 2018-05-29 2022-07-12 Microsoft Technology Licensing, Llc System and method for multi-language search
CN110888967B (zh) * 2018-09-11 2023-04-28 阿里巴巴集团控股有限公司 搜索方法、装置及设备
CN109726263B (zh) * 2018-12-30 2021-07-02 广西财经学院 基于特征词加权关联模式挖掘的跨语言译后混合扩展方法
CA3123888A1 (en) 2019-01-23 2020-07-30 Keeeb Inc. Data processing system for data search and retrieval augmentation and enhanced data storage
CN109933724B (zh) * 2019-03-07 2022-01-14 上海智臻智能网络科技股份有限公司 知识搜索方法、系统、问答装置、电子设备及存储介质
CN111737550B (zh) * 2019-03-25 2024-01-23 阿里巴巴集团控股有限公司 搜索结果处理方法及装置、存储介质和处理器
CN112446222A (zh) * 2019-08-16 2021-03-05 阿里巴巴集团控股有限公司 翻译优化方法、装置及处理器
CN112528129B (zh) * 2019-08-28 2024-03-22 北京搜狗科技发展有限公司 多语种翻译系统语种搜索方法及装置
CN112633016A (zh) * 2019-09-20 2021-04-09 联想企业解决方案(新加坡)有限公司 支持第二语言的方法,装置和产品
US11730420B2 (en) 2019-12-17 2023-08-22 Cerner Innovation, Inc. Maternal-fetal sepsis indicator
EP4268094A1 (en) * 2020-12-23 2023-11-01 Citrix Systems, Inc. Cross-language search
US12086559B2 (en) * 2021-03-31 2024-09-10 International Business Machines Corporation Clause extraction using machine translation and natural language processing
US11886446B2 (en) * 2021-04-05 2024-01-30 Baidu Usa Llc Cross-lingual language models and pretraining of cross-lingual language models
CN118568318A (zh) * 2023-02-28 2024-08-30 北京字跳网络技术有限公司 内容搜索方法、装置、设备、计算机可读存储介质及产品

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002063201A (ja) 2000-08-17 2002-02-28 Nova Asia:Kk コンピュータネットワークを用いた多言語対応情報検索方法及び検索兼翻訳ツールバー

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5956740A (en) 1996-10-23 1999-09-21 Iti, Inc. Document searching system for multilingual documents
KR980004126A (ko) * 1997-12-16 1998-03-30 양승택 다국어 웹 문서 검색을 위한 질의어 변환 장치 및 방법
US6347315B1 (en) * 1997-12-12 2002-02-12 Canon Kabushiki Kaisha Method and apparatus for selecting and utilizing one of computers or databases
JP3181548B2 (ja) 1998-02-03 2001-07-03 富士通株式会社 情報検索装置及び情報検索方法
GB2337611A (en) * 1998-05-20 1999-11-24 Sharp Kk Multilingual document retrieval system
JP3114703B2 (ja) 1998-07-02 2000-12-04 富士ゼロックス株式会社 対訳文検索装置
US6381598B1 (en) 1998-12-22 2002-04-30 Xerox Corporation System for providing cross-lingual information retrieval
JP3055545B1 (ja) * 1999-01-19 2000-06-26 富士ゼロックス株式会社 関連文検索装置
US6594654B1 (en) * 2000-03-03 2003-07-15 Aly A. Salam Systems and methods for continuously accumulating research information via a computer network
US20010029455A1 (en) * 2000-03-31 2001-10-11 Chin Jeffrey J. Method and apparatus for providing multilingual translation over a network
US7107204B1 (en) * 2000-04-24 2006-09-12 Microsoft Corporation Computer-aided writing system and method with cross-language writing wizard
US6604101B1 (en) 2000-06-28 2003-08-05 Qnaturally Systems, Inc. Method and system for translingual translation of query and search and retrieval of multilingual information on a computer network
US20040006560A1 (en) * 2000-05-01 2004-01-08 Ning-Ping Chan Method and system for translingual translation of query and search and retrieval of multilingual information on the web
US7478033B2 (en) * 2004-03-16 2009-01-13 Google Inc. Systems and methods for translating Chinese pinyin to Chinese characters
US7730012B2 (en) * 2004-06-25 2010-06-01 Apple Inc. Methods and systems for managing data
JP4263181B2 (ja) * 2005-03-28 2009-05-13 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
JP4439431B2 (ja) * 2005-05-25 2010-03-24 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
US20070022134A1 (en) 2005-07-22 2007-01-25 Microsoft Corporation Cross-language related keyword suggestion
JP4254763B2 (ja) 2005-08-26 2009-04-15 沖電気工業株式会社 文書検索システム、文書検索方法及び文書検索プログラム
JP4940606B2 (ja) * 2005-09-22 2012-05-30 富士ゼロックス株式会社 翻訳システム、翻訳装置、翻訳方法及びプログラム
US20070106653A1 (en) * 2005-10-12 2007-05-10 Yu Sun Search engine
US7853555B2 (en) * 2006-04-19 2010-12-14 Raytheon Company Enhancing multilingual data querying
CN101443759B (zh) * 2006-05-12 2010-08-11 北京乐图在线科技有限公司 多语言信息检索的方法和系统
US7640236B1 (en) * 2007-01-17 2009-12-29 Sun Microsystems, Inc. Method and system for automatic distributed tuning of search engine parameters
US7720856B2 (en) * 2007-04-09 2010-05-18 Sap Ag Cross-language searching

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002063201A (ja) 2000-08-17 2002-02-28 Nova Asia:Kk コンピュータネットワークを用いた多言語対応情報検索方法及び検索兼翻訳ツールバー

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190073525A (ko) * 2016-11-04 2019-06-26 구글 엘엘씨 기계 학습 작업의 암시적 브리징
KR102368519B1 (ko) 2016-11-04 2022-03-02 구글 엘엘씨 기계 학습 작업의 암시적 브리징

Also Published As

Publication number Publication date
JP5264892B2 (ja) 2013-08-14
WO2008144538A1 (en) 2008-11-27
KR20100022467A (ko) 2010-03-02
CN105787001A (zh) 2016-07-20
US8799307B2 (en) 2014-08-05
JP2010527494A (ja) 2010-08-12
US20080288474A1 (en) 2008-11-20
EP2165278A1 (en) 2010-03-24
EP2165278A4 (en) 2010-06-09
BRPI0811876A2 (pt) 2014-11-18
CN101743544A (zh) 2010-06-16

Similar Documents

Publication Publication Date Title
KR101554293B1 (ko) 교차 언어 정보 검색
US11294970B1 (en) Associating an entity with a search query
US9218414B2 (en) System, method, and user interface for a search engine based on multi-document summarization
CN107092615B (zh) 来自文档的查询建议
CA2935272C (en) Coherent question answering in search results
US20150161274A1 (en) Providing topic based search guidance
US8661049B2 (en) Weight-based stemming for improving search quality
US9342601B1 (en) Query formulation and search in the context of a displayed document
US20090125497A1 (en) System and method for multi-lingual information retrieval
US10860638B2 (en) System and method for interactive searching of transcripts and associated audio/visual/textual/other data files
US20120047131A1 (en) Constructing Titles for Search Result Summaries Through Title Synthesis
US8639701B1 (en) Language selection for information retrieval
US20160224621A1 (en) Associating A Search Query With An Entity
US20090119283A1 (en) System and Method of Improving and Enhancing Electronic File Searching
US20180365318A1 (en) Semantic analysis of search results to generate snippets responsive to receipt of a query
US8239358B1 (en) System, method, and user interface for a search engine based on multi-document summarization
US9208233B1 (en) Using synthetic descriptive text to rank search results
US9773035B1 (en) System and method for an annotation search index
JP2019045953A (ja) 類語処理装置、及びプログラム
JP2008026967A (ja) 文書検索システム及びプログラム
JP2012243130A (ja) 情報検索装置、方法、及びプログラム
Yilmaz et al. Snippet Generation Using Local Alignment for Information Retrieval (LAIR)
JP2024144663A (ja) プログラム、方法、情報処理装置、システム
WO2001065412A2 (en) Automatically determining a response to an inquiry using structured information

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180828

Year of fee payment: 4