KR20100009520A

KR20100009520A - 쿼리 확장을 위한 음역

Info

Publication number: KR20100009520A
Application number: KR1020090065978A
Authority: KR
Inventors: 피유쉬 프라흘라드카; 랄리테쉬 카트라가따; 비니엣 구프타
Original assignee: 구글 인코포레이티드
Priority date: 2008-07-18
Filing date: 2009-07-20
Publication date: 2010-01-27
Also published as: CN101630333A; CN101630333B; US20100017382A1; US20130338996A1; CN104111972A; US8521761B2; CN104111972B

Abstract

쿼리 확장을 위하여 음역어의 후보 동의어를 확인하기 위해, 컴퓨터 프로그램 제품을 포함하여 방법, 시스템 및 장치가 제공된다. 일 측면에서, 방법은 타겟 언어에서의 복수의 음역어를 확인하는 단계를 포함한다. 상기 타겟 언어에서의 복수의 음역어 중 각 음역어에 대하여, 소스 언어에서의 하나 이상의 용어에 상기 음역어를 매핑한다. 상기 타겟 언어에서의 복수의 음역어 중 제 1 음역어에 대하여, 상기 타겟 언어에서의 복수의 음역어 중 하나 이상의 제 2 음역어를 상기 제 1 음역어의 후보 동의어로서 확인하며, 여기서 상기 하나 이상의 제 2 음역어 각각은 상기 제 1 음역어로부터도 매핑되는 상기 소스 언어에서의 적어도 하나의 용어에 매핑된다.

Description

쿼리 확장을 위한 음역{TRANSLITERATION FOR QUERY EXPANSION}

본 명세서는 쿼리를 검색 엔진에 제시하는 이용자를 위한 쿼리 확장에 관한 것이다.

검색 엔진, 그리고 특히 인터넷 검색 엔진은 이용자의 요구와 관련된 리소스(예컨대, 웹페이지, 이미지, 텍스트 문서, 멀티미디어 컨텍스트)를 확인하고, 그 이용자에게 가장 유용한 방식으로 해당 리소스에 관한 정보를 제공하는 것을 목적으로 한다. 인터넷 검색 엔진은 이용자가 제시한 쿼리에 응답하여 검색 결과를 회신한다. 만약 이용자가 쿼리에 대하여 회신된 검색 결과에 만족하지 않는다면, 그 이용자는 자신의 요구에 더 잘 부합하도록 쿼리를 상세하게 하려고 시도할 수 있다.

일부 검색 엔진은 제안형 선택적 쿼리, 예컨대 그 검색 엔진이 이용자의 쿼리와 관련되는 것으로서 확인하는 확장형 쿼리를 이용자에게 제공한다. 쿼리 확장을 위한 쿼리 단어의 동의어를 찾는 기술은 일반적으로 자연어(Natural Language) 모델이나 이용자 검색 로그 데이터에 의존한다. 쿼리 단어에 대하여 확인된 동의어는 이용자의 검색 경험을 개선하기 위하여 부가적이거나 더 관련성이 있는 리소스 를 확인하려는 시도에서 쿼리를 확장하는데 사용될 수 있다.

전자 문서는 보통 다수의 다양한 언어로 작성된다. 보통, 각 언어는 통상적으로 특정한 알파벳에 의해 특징지어지는 특유의 문자 체계(즉, 스크립트)로 표현된다. 예컨대, 영어는 라틴 알파벳을 이용하여 표현되는 반면, 힌디어는 보통 데바나가리 알파벳을 이용하여 표현된다. 일부 언어에 의해 사용되는 스크립트는 부가적인 부호나 문자를 포함하도록 확장된 특정한 알파벳을 포함한다. 음역의 경우, 일반적으로 한 언어의 스크립트는 다른 언어의 스크립트로 작성된 단어를 나타내는데 사용된다. 예컨대, 음역된 용어는 하나의 스크립트로부터 다른 스크립트로 변환된 용어이거나, 어떤 용어에 관한 하나의 스크립트를 다른 스크립트에서 발음 그대로 표시한 것일 수 있다. 쿼리 확장을 위하여 쿼리 단어의 동의어를 찾는 기술은 음역된 용어인 쿼리 용어의 동의어를 찾는데 있어서는 제대로 기능하지 못할 수 있다. 예컨대, 현재의 자연어 기술은 음역된 데이터와는 제대로 기능하지 못하고, 검색 로그 데이터는 대부분의 음역된 변화들을 제대로 커버하지 못한다.

본 명세서는 쿼리 확장을 위한 음역된 용어의 후보 동의어를 확인하는 것과 관련된 기술을 설명한다.

일반적으로, 본 명세서에서 설명하는 주제의 일 측면은, 하나 이상의 컴퓨터를 이용하여, 타겟 언어에서의 복수의 음역어를 확인하는 단계; 상기 타겟 언어에서의 복수의 음역어 중 각 음역어에 대하여, 소스 언어에서의 하나 이상의 용어에 상기 음역어를 매핑하는 단계; 및 상기 타겟 언어에서의 복수의 음역어 중 제 1 음역어에 대하여, 상기 타겟 언어에서의 복수의 음역어 중 하나 이상의 제 2 음역어를 상기 제 1 음역어의 후보 동의어로서 확인하는 단계를 포함하며, 상기 하나 이상의 제 2 음역어 각각은 상기 제 1 음역어로부터도 매핑되는 상기 소스 언어에서의 적어도 하나의 용어에 매핑되는 것을 특징으로 하는 컴퓨터로 구현되는 방법으로 구체화될 수 있다. 이러한 측면의 다른 실시형태에는 그에 대응하는 시스템, 장치 및 컴퓨터 프로그램 제품이 포함된다.

이들 및 다른 실시형태들은 선택적으로 다음의 특징 중 하나 이상을 포함할 수 있다. 상기 타겟 언어에서의 복수의 음역어를 확인하는 단계는, 상기 타겟 언어의 문자만을 포함하는 용어를 웹 리소스로부터 확인하는 단계를 더 포함할 수 있다. 본 측면은, 상기 타겟 언어의 문자만을 포함하는 각 확인 용어에 대한 통계치를 연산하는 단계; 상기 각 확인 용어에 대한 상기 통계치를 특정 임계값에 비교하 는 단계; 및 특유의 확인 용어에 대한 상기 통계치가 상기 특정 임계값을 초과한다면, 상기 타겟 언어에서의 복수의 음역어에 상기 특유의 확인 용어를 포함시키는 단계를 더 포함할 수 있다.

상기 각 확인 용어에 대한 상기 통계치는, 상기 소스 언어가 말하여지는 하나 이상의 장소와 연계된 최상위 도메인의 웹 리소스에서 상기 확인 용어가 발생할 확률 대 어떤 장소라도 연계된 최상위 도메인의 웹 리소스에서 상기 확인 용어가 발생할 확률의 비일 수 있다. 상기 각 확인 용어에 대한 상기 통계치는, 상기 소스 언어가 말하여지는 하나 이상의 장소와 연계된 웹 리소스에서 상기 확인 용어가 발생할 확률 대 어떤 장소라도 연계된 웹 리소스에서 상기 확인 용어가 발생할 확률의 비일 수 있다. 상기 소스 언어가 사용되는 장소와 웹 리소스의 연계는 상기 웹 리소스의 최상위 도메인에 의해 결정될 수 있다.

상기 소스 언어에서의 하나 이상의 용어에 상기 음역어를 매핑하는 단계는, 상기 타겟 언어에서의 상기 음역어를 상기 소스 언어에서의 상기 하나 이상의 용어로 음역하는 단계를 더 포함할 수 있다. 상기 제 1 음역어의 후보 동의어로서 확인된 상기 하나 이상의 제 2 음역어 각각은 특정 임계값을 넘는 상기 제 1 음역어에 대하여 신뢰값을 가질 수 있다. 상기 제 2 음역어의 상기 신뢰값은, 상기 제 1 음역어와 상기 제 2 음역어 양자로부터 매핑되는 상기 소스 언어에서의 용어의 수에 관한 함수일 수 있다. 상기 타겟 언어에서의 상기 음역어를 상기 소스 언어에서의 용어로 음역하는 단계는, 상기 타겟 언어에서의 상기 음역어의 상기 소스 언어에서 상기 용어로의 음역에 대한 음역 점수를 생성하는 단계를 더 포함할 수 있다. 상기 제 2 음역어의 상기 신뢰값은, 웹 리소스에서 상기 제 2 음역어의 발생 확률, 상기 제 2 음역어의 상기 제 1 음역어로부터도 매핑되는 상기 소스 언어에서의 용어로의 음역에 대한 상기 음역 점수, 및 상기 제 1 음역어의 상기 소스 언어에서의 용어로의 음역에 대한 상기 음역 점수 중 하나 이상의 함수일 수 있다.

본 측면은, 상기 타겟 언어에서의 상기 복수의 음역어 중 상기 제 1 음역어에 대하여, 상기 제 1 음역어 및 상기 제 1 음역어의 후보 동의어로서 상기 하나 이상의 제 2 음역어 중 적어도 하나로부터 매핑되는 상기 소스 언어에서의 하나 이상의 용어를 확인하는 단계를 더 포함할 수 있다. 본 측면은, 상기 제 1 음역어를 포함하는 쿼리를 수신하는 단계; 상기 제 1 음역어의 상기 후보 동의어 중 하나 이상으로 상기 쿼리를 확장하는 단계; 상기 확장된 쿼리를 검색 엔진에 제공하는 단계; 및 상기 확장된 쿼리에 대한 검색 결과를 수신하는 단계를 더 포함할 수 있다. 본 측면은, 상기 제 1 음역어를 포함하는 쿼리를 수신하는 단계; 및 이용자의 선택을 위하여 하나 이상의 확장된 쿼리를 제공하는 단계를 더 포함하고, 상기 확장된 쿼리 각각은, 상기 쿼리 및 상기 제 1 음역어의 상기 후보 동의어 중 하나 이상을 포함할 수 있다.

본 측면은, 상기 제 1 음역어를 포함하는 쿼리를 수신하는 단계; 상기 제 1 음역어의 상기 후보 동의어 중 적어도 하나를 포함하지만 상기 쿼리의 용어는 포함하지 않는 웹 리소스를 상기 쿼리에 대한 가능한 검색 결과로서 확인하는 검색 엔진에 상기 쿼리를 제공하는 단계; 및 상기 웹 리소스와 연계된 점수를 수정하는 단계를 더 포함하며, 상기 점수는 상기 쿼리에 대한 가능한 검색 결과를 순위 매기는 데 사용하기 위한 것일 수 있다. 본 측면은, 상기 제 1 음역어를 포함하는 쿼리를 수신하는 단계; 상기 제 1 음역어 및 상기 하나 이상의 제 2 음역어 중 적어도 하나로부터 매핑되는 상기 소스 언어에서의 용어 중 적어도 하나를 포함하지만 상기 쿼리에서의 용어는 포함하지 않는 웹 리소스를 상기 쿼리에 대한 가능한 검색 결과로서 확인하는 검색 엔진에 상기 쿼리를 제공하는 단계; 및 상기 웹 리소스와 연계된 정보 검색 점수를 수정하는 단계를 더 포함하며, 상기 정보 검색 점수는 상기 쿼리에 대한 가능한 검색 결과를 순위 매기는데 사용하기 위한 것일 수 있다.

본 명세서에서 설명하는 주제의 다른 측면은, 하나 이상의 컴퓨터를 이용하여, 타겟 언어로, 가능한 음역 동의어들의 트레이닝 그룹을 생성하는 단계; 상기 타겟 언어에서의 음역 동의어에 있어서 스펠링 편차의 확률을 학습하기 위해 상기 트레이닝 그룹을 이용하여 확률 모델을 트레이닝하는 단계; 및 상기 타겟 언어에서의 특유의 음역어에 상기 확률 모델을 적용하여, 상기 특유의 음역어의 하나 이상의 후보 동의어를 확인하는 단계를 포함하는 컴퓨터로 구현되는 방법으로 구체화될 수 있다. 이러한 측면의 다른 실시형태에는 그에 대응하는 시스템, 장치 및 컴퓨터 프로그램 제품이 포함된다.

본 명세서에서 설명하는 주제의 또 다른 측면은, 하나 이상의 컴퓨터를 이용하여, 타겟 언어에서의 복수의 음역어를 확인하는 단계; 상기 타겟 언어에서의 복수의 음역어 중 제 1 음역어에 대하여, 상기 타겟 언어에서의 복수의 음역어 중 하나 이상의 제 2 음역어를 상기 제 1 음역어의 후보 동의어로서 확인하는 단계; 및 상기 제 1 음역어를 포함하는 쿼리를 확장하기 위하여, 상기 제 1 음역어의 상기 후보 동의어를 이용하는 단계를 포함하는 컴퓨터로 구현되는 방법으로 구체화될 수 있다. 이러한 측면의 다른 실시형태에는 그에 대응하는 시스템, 장치 및 컴퓨터 프로그램 제품이 포함된다.

본 명세서에 기술된 주제의 특정한 실시형태는 다음 중 하나 이상의 이점을 실현하도록 구현될 수 있다. 음역된 용어는 특정한 음역된 용어에 대한 후보 동의어로서 확인되며, 이 후보 동의어는 그 특정한 음역된 용어를 포함하는 쿼리를 확장하는데 사용 가능하다. 타겟 언어에서 음역된 동의어는 더 새롭게 음역된 용어(예컨대, 현재의 뉴스 이야기나 현재의 문화적 관계에 의해 소스 언어의 용어로부터 음역된 용어)를 위해 확인 가능하며, 이는 이용자 검색 로그 데이터에 있어서 우수하지 못한 적용 범위를 가질 수 있다. 주어진 음역된 용어에 대한 후보 음역된 동의어를 포함하도록 이용자의 쿼리를 확장할 수 있는 시스템은 그와 동일한 쿼리 확장 능력을 갖지 않는 검색 시스템보다 더 나은 검색 결과를 회신할 수 있다.

본 명세서에서 기술된 주제에 관한 하나 이상의 실시형태의 세부사항들은 첨부 도면과 이하의 상세한 설명에서 제시된다. 본 주제의 다른 특징, 목적 및 이점은 본 상세한 설명, 도면 및 청구범위로부터 명백할 것이다.

다양한 도면에 있어서 동일한 참조 부호와 표시는 동일한 요소를 나타낸다.

도 1은 인터넷, 인트라넷 혹은 다른 클라이언트 및 서버 환경에서 구현 가능한 바와 같이, 제시된 쿼리에 관한 검색 결과를 제공하는데 사용 가능한 예시적인 검색 시스템(114)의 블록도이다. 본 검색 시스템(114)은 이하에 설명하는 본 시스템, 컴포넌트 및 기술이 구현될 수 있는 정보 검색 시스템의 일 예이다.

이용자(102)는 클라이언트 장치(104)를 통하여 본 검색 시스템(114)과 상호 작용할 수 있다. 예컨대, 클라이언트(104)는 예를 들어 인터넷과 같은 WAN(Wide Area Network)이나 LAN(Local Area Network)을 통해 검색 시스템(114)에 결합된 컴퓨터일 수 있다. 일부 구현예에서, 검색 시스템(114) 및 클라이언트 장치(104)는 단일 장치일 수 있다. 예컨대, 이용자는 클라이언트 장치(104) 상에 데스크탑 검색 어플리케이션을 설치할 수 있다. 클라이언트 장치(104)는 일반적으로 RAM(106) 및 프로세서(108)를 포함할 것이다.

이용자(102)는 검색 시스템(114) 내의 검색 엔진(130)에 쿼리(110)를 제시할 수 있다. 이용자(102)가 쿼리(110)를 제시하는 경우, 쿼리(110)는 네트워크를 통해 검색 시스템(114)으로 전송된다. 검색 시스템(114)은 예컨대 네트워크를 통해 상호 결합된 하나 이상의 위치에 있는 하나 이상의 컴퓨터 상에서 실행되는 컴퓨터 프로그램으로서 구현될 수 있다. 검색 시스템(114)은 색인 데이터베이스(122)와 검색 엔진(130)을 포함한다. 검색 시스템(114)은 쿼리(110)에 대하여 검색 결과(128)를 생성함으로써 응답하는데, 이는 (예컨대, 클라이언트 장치(104) 상에서 구동하는 웹 브라우저에서 디스플레이되는 검색 결과 웹 페이지와 같이) 이용자(102)에게 제공될 수 있는 형태로 클라이언트 장치(104)에 네트워크를 통하여 전송된다.

쿼리(110)가 검색 엔진(130)에 의해 수신될 때, 검색 엔진(130)은 쿼리(110)에 부합하는 리소스를 확인한다. 일반적으로 검색 엔진(130)은 리소스(예컨대, 웹 페이지, 이미지 혹은 인터넷 상의 뉴스 기사)를 색인하는 색인 엔진(120), 색인 정보를 저장하는 색인 데이터베이스(122) 및 쿼리(110)에 부합하는 리소스를 순위 매기는 랭킹 엔진(152)(혹은 기타 소프트웨어)을 포함할 것이다. 검색 엔진(130)은 이용자(102)에의 제공을 위하여 클라이언트 장치(104)에 네트워크를 통하여 검색 결과(128)를 전송할 수 있다.

일부 시나리오의 경우, 쿼리는 음역된 용어인 하나 이상의 용어를 포함한다. 음역은 소스 언어의 용어를 타겟 언어의 음역된 용어로 변환한다. 변환 이후, 소스 언어에 있어서 해당 용어의 문자나 기호는 타겟 언어의 문자나 기호에 의해 나타내어진다. 음역을 위한 기계 학습 기술은 예컨대 2008년 3월 6일자로 제출된 "음역을 위한 기계 학습"이라는 제목의 미국특허출원 제12/043,854호에 개시되어 있다.

한 언어로부터 다른 언어로 음역된 용어는 인터넷 리소스에서 사용될 수 있다. 예컨대, 힌디어, 타밀어, 텔루구어, 칸나다어, 말라얄람어와 같은 인도어는 때때로 인터넷 리소스(예컨대, 인도 사람의 블로그나 전자적인 인도 기술 교과서) 상에서 영어로 음역된다. 이들 언어는, 일부 비 인도 언어(예컨대, 중국어와 기타 표어 문자 체계)와 함께, 잘 구현된 선택적인 입력 메커니즘을 가지고 있지 않아 종종 이들 언어로 문자를 입력하는 것이 귀찮다.

음역은 정확한 스펠링(Spelling)의 의미를 갖는 것이 아니다. 결과적으로, 보통 소스 언어인 단어의 음역에 대해서는 타겟 언어로 복수의 스펠링이 존재한다. 타겟 언어에서 복수의 음역을 갖는 소스 언어의 특정 용어의 경우, 타겟 언어에서의 주어진 음역어로부터 변하는 타겟 언어에서의 음역어는 그 주어진 음역어의 후 보 동의어로서 취급될 수 있다. 이들 후보 음역 동의어는 소스 언어에서의 동일한 용어에 대한 서로 다른 가능한 음역들이다.

예컨대, 힌디어 단어인

는 영어로 "chakrabarti" 혹은 "chakrabarty"로 음역될 수 있다. 따라서, 음역어 "chakrabarty"는 주어진 음역어 "chakrabarti"의 후보 동의어로서 확인될 수 있다.

주어진 음역어에 대하여 확인된 후보 동의어는 그 주어진 음역어를 포함하는 쿼리를 확장하는데 사용 가능하다. 예컨대, 인터넷 상의 여러 웹사이트에서 이용 가능한 인기 있는 힌디어 신곡이 있는 경우, 만약 이용자가 동일한 힌디어 단어에 대한 제 2 음역어를 갖는 쿼리를 입력하는 동안 해당 웹사이트가 노래 제목의 힌디어 단어를 제 1 음역어로 음역한다면, 이용자는 해당 곡을 찾기 어려울 수 있다. 제 2 음역어에 대한 후보 음역 동의어를 포함하도록 이용자의 쿼리를 확장할 수 있는 검색 시스템은 그와 같은 쿼리 확장 기능을 갖지 않는 검색 시스템보다 더 나은 검색 결과를 회신할 수 있다.

도 2a 내지 도 2c는 음역어에 대한 후보 동의어를 확인하기 위한 예시적인 기술을 나타낸다. 편의상 본 예시적인 기술은 그 기술을 수행하는 시스템을 참조하여 설명할 것이다. 본 예시적인 기술은 쿼리에 대하여 회신된 검색 결과를 개선하려는 시도에 있어서 음역어의 동의어를 포함하도록 해당 음역어를 포함하는 쿼리를 확장하는데 사용 가능하다. 본 예시적인 기술은 소스 언어(예컨대, 힌디어)에서의 동일한 용어로부터 타겟 언어(예컨대, 영어)에서 어떤 용어가 음역되는지를 결정하기 위한 음역 기술을 이용한다. 후보 동의어의 정밀도나 질을 개선하기 위하여 몇 가지 기술이 구현될 수 있다.

도 2a는 타겟 언어인 영어에서 가능한 음역어의 리스트(210)를 나타내며, 여기서 소스 언어는 힌디어이다. 시스템은 어떤 수의 서로 다른 방법으로도 가능한 음역어의 리스트(210)를 생성하거나 확인할 수 있다.

예컨대, 본 시스템은 웹 리소스로부터의 리스트(210)의 가능한 음역어들을 타겟 언어의 문자(예컨대, 라틴 문자)만을 포함하는 용어로서 확인할 수 있다. 타겟 언어의 문자만을 포함하는 이 확인된 용어는 타겟 언어에서의 의미를 갖는 단어와 타겟 언어에서의 의미 없이 가능한 음역어를 포함하고 있다.

비 음역어(예컨대, 의미를 갖는 단어)로부터의 가능한 음역어들을 분리하기 위하여, 본 시스템은 타겟 언어의 문자만을 포함하는 확인된 용어에 대한 통계치를 연산하고, 그 통계치를 특정 임계값에 비교할 수 있다. 즉, 각각의 확인된 용어에 대하여, 통계치를 연산하여 임계값에 비교하며, 여기서 본 시스템은 만약 그 확인된 용어에 대한 통계치가 특정 임계값을 초과한다면 가능한 음역어의 리스트(210)에서 해당 확인된 용어를 포함하고 있다.

영어가 타겟 언어이고 힌디어가 소스 언어인 일 예에서, 영어의 음역어는 비 인도 웹 사이트보다 인도 웹 사이트 상에서 발생할 확률이 더 높을 수 있다. 이 예의 경우, 라틴 문자만을 포함하는 것으로 확인된 각 용어에 대한 통계치는 인도 웹 리소스 상에서의 발생 확률의 함수일 수 있다.

일부 구현예의 경우, 각각의 확인된 용어에 대한 통계치는 어떤 장소라도 연계된 최상위 도메인의 웹 리소스에서 상기 확인 용어가 발생할 확률에 대한 상기 소스 언어가 말하여지는 하나 이상의 장소(예컨대, 국가나 지방)와 연계된 최상위 도메인의 웹 리소스에서 상기 확인 용어가 발생할 확률의 비이다. 예컨대, 통계치는 어떤 웹 페이지 상에서도 발생하는 확인 용어의 확률에 대한 인도 웹 페이지 상에서 발생할 확인 용어의 확률의 비일 수 있다. 만약 특정한 확인 용어에 대해 연산된 통계치가 특정 임계값을 초과한다면, 그 특정한 확인 용어는 가능한 음역어의 리스트(210)에 포함될 수 있다.

일부 다른 구현예의 경우, 각 확인 용어에 대한 통계치는 상기 각 확인 용어에 대한 상기 통계치는, 어떤 장소라도 연계된 웹 리소스에서 상기 확인 용어가 발생할 확률에 대한 상기 소스 언어가 말하여지는 하나 이상의 장소(예컨대, 국가나 지방)와 연계된 웹 리소스에서 상기 확인 용어가 발생할 확률의 비이다. 상기 소스 언어가 말하여지는 장소와 웹 리소스의 연계는 상기 웹 리소스의 최상위 도메인에 의해 결정될 수 있다. 예컨대, 이 통계치는 어떤 웹 도메인 상에서도 발생하는 확인 용어의 확률에 대한 인도 웹 도메인 상에서 발생하는 확인 용어의 확률의 비일 수 있다. 특정한 확인 용어에 대해 연산된 통계치가 특정 임계값을 초과한다면, 그 특정한 확인 용어는 가능한 음역어의 리스트(210)에 포함될 수 있다.

일부 시나리오의 경우, 특정한 웹 페이지나 특정한 웹 도메인이 특정한 확인 용어를 예외적으로 많은 횟수로 사용할 수 있으며, 이는 해당 특정한 확인 용어에 대한 통계치를 왜곡할 수 있다. 일부 구현에서는, 본 시스템은 통계치의 왜곡을 방지하기 위하여 소정의 한계치에서 각 확인된 용어에 대한 통계치 혹은 각 확인된 용어에 대한 통계치의 컴포넌트를 상한 짓는다. 예컨대, 본 시스템은 인도 도메인 상에서 확인된 용어의 도메인 당 기여분이나 인도 웹 페이지 상에서 확인된 용어의 페이지 당 기여분의 상한을 정할 수 있다.

일부 구현예의 경우, 각각의 확인된 용어에 대한 통계치는 어떤 언어에서라도 인터페이스를 갖는 검색 엔진에 제시된 쿼리에 포함되어 있는 확인 용어의 확률에 대한 소스 언어에서 인터페이스를 갖는 검색 엔진에 제시된 쿼리에 포함되어 있는 확인 용어의 확률의 비이다. 예컨대, 본 시스템은 인도 및 비 인도 검색 로그를 사용하여 통계치를 연산할 수 있다.

일부 구현예의 경우, 비 음역어(예컨대, 타겟 언어에서의 의미를 갖는 단어)와 가능한 음역어를 분리하기 위하여, 본 시스템은 타겟 언어의 문자만을 포함하는 각각의 확인 용어에 대한 복수의 통계치를 연산하고, 이 복수의 통계치를 각각의 임계값에 비교한다. 만약 특정한 확인 용어에 대한 복수의 통계치 각각이 각 임계값을 초과한다면, 본 시스템은 가능한 음역어의 리스트(210)에 그 특정한 확인 용어를 포함시킬 수 있다.

선택적으로, 리스트(210)의 가능한 음역어는 소스 언어와 연계된 알려진 웹 리소스만을 크롤링(Crawling)함으로써 확인될 수 있다. 소스 언어가 힌디어인 예의 경우, 본 시스템은 알려진 인도 웹 사이트, 예컨대 힌디어 노래나 힌디어 기술 교재를 음역해 주는 인도 블로그 사이트나 웹 사이트를 크롤링함으로써 가능한 음역어를 확인할 수 있다.

도 2b는 리스트(210)의 각 가능한 음역어와 소스 언어인 힌디어에서의 하나 이상의 용어(220) 간의 관계(215)를 나타낸다. 각각의 관계(215)는 제 1 그룹의 요 소(즉, 타겟 언어에서의 가능한 음역어)를 제 2 그룹의 하나 이상의 요소(즉, 소스 언어에서의 용어(220))에 매핑한 결과이다. 즉, 매핑은 타겟 언어에서의 가능한 음역어와 소스 언어에서의 하나 이상의 용어(220) 간에 일방적 관계를 형성한다. 도 2b의 예시적인 기술에서, 관계(215)는 예컨대 본 시스템의 요소로서 구현된 영어-힌디어 기계 번역기에 의해 수행된 음역에 의한 매핑의 결과이다.

일부 구현예의 경우, 매핑은 소스 언어에서의 용어(220)에 대한 타겟 언어에서의 가능한 음역어로부터의 각 음역에 대한 음역 점수(225)를 생성하는 것을 포함한다. 예컨대, 도 2b는 "sreeram"으로부터 H2까지의 점수(예컨대, score_E1 _to _H2), "shriram"으로부터 H2까지의 점수(예컨대, score_E3 _to _H2) 및 "shreeram"에서 H6까지의 점수(예컨대, score_{E4 to H6})를 포함하여, 각 음역에 대한 음역 점수(225)를 나타낸다.

만약 음역 점수(225)가 매핑에 의해 생성되면, 리스트(210)의 주어진 가능한 음역어의 음역 점수(225)는 다른 가능한 음역어에 대한 주어진 가능한 음역어의 신뢰값의 컴포넌트일 수 있다. 본 시스템은 특정한 음역어에 대한 후보 동의어로서 여겨져야 하는 가능한 음역어를 확인하는데 있어서 이러한 신뢰값을 사용할 수 있다. 음역 점수(225)와 신뢰값은 도 2c를 참조하여 더 자세하게 설명한다.

도 2c는, 제 1 가능한 음역어(230)에 대하여, 제 1 가능한 음역어(230)의 후보 동의어로서 하나 이상의 제 2 가능한 음역어(240)를 확인하는 것을 나타낸다.

만약 음역기가 타겟 언어에서의 2 이상의 가능한 음역어로부터 소스 언어에 서의 용어(220)를 매핑한다면, 이는 타겟 언어에서의 2 이상의 가능한 음역어들 간 동의어 관계를 제안하는 것이다. 예컨대, H2는 3개의 가능한 음역어 "sreeram", "shriram" 및 "shreeram"으로부터 음역기에 의하여 매핑된 소스 언어에서의 힌디어 단어이며, 이 3개의 음역어가 동의어임을 나타낸다.

도 2c의 예시적인 기술에서, 본 시스템은 제 1 가능한 음역어(230)로부터도 매핑되는 소스 언어에서의 적어도 하나의 용어(220)에 매핑되는 리스트(210)의 가능한 음역어를 확인함으로써 제 1 가능한 음역어(230)의 후보 동의어로서 제 2 가능한 음역어(240)를 확인한다. 소스 언어에서 용어(220)의 교집합은 음역된 동의어에 대한 후보 그룹을 제공한다. 음역된 동의어에 대한 후보 그룹의 신뢰성을 높이기 위해 몇 가지 기술이 구현될 수 있다.

일부 구현에서, 제 1 음역어(230) 이외에 리스트(210)의 가능한 음역어 각각은 제 1 가능한 음역어(230)에 관하여 신뢰값을 갖는다. 이들 구현에서, 특정한 가능한 음역어가 특정 임계값을 초과하는 제 1 가능한 음역어(230)에 관하여 신뢰값을 가진다면, 특정한 가능한 음역어는 제 1 가능한 음역어(230)의 후보 동의어로서 확인되는 제 2 가능한 음역어(240)이다. 만약 매핑이 각각의 음역에 대하여 음역 점수(225)를 생성하지 않는다면, 주어진 제 2 가능한 음역어(240)에 대한 신뢰값은 주어진 제 2 가능한 음역어(240)와 제 1 가능한 음역어(230) 양자로부터 매핑되는 소스 언어에서의 용어(220)의 수에 관한 함수일 수 있다.

예컨대, "shriram" 및 "sriraam" 각각은 제 1 가능한 음역어(230)인 "sreeram"으로부터도 매핑되는 하나의 용어(220)(즉, H2 및 H6 각각)에만 매핑된 다. 음역어 "shreeram"은 제 1 가능한 음역어(230)인 "sreeram"으로부터도 매핑되는 2개의 용어(220)(즉, H2 및 H6)에 매핑된다. 소스 언어에서 매핑된 용어(220)의 "sreeram"과의 중첩은 "shriram" 및 " sriraam"의 경우보다 "shreeram"에 대해서 더 크고, 이는 "shreeram"이 "shriram"이나 "sriraam" 중 어느 하나보다 "sreeram"에 대한 더 신뢰성 있는 후보 동의어일 수 있다는 점을 나타낸다. 이렇게 개선된 신뢰성은 "sreeram"에 관하여 "shreeram"에 대한 더 높은 신뢰값에서 반영될 수 있다.

만약 매핑이 각 음역에 대하여 음역 점수(225)를 생성한다면, 주어진 제 2 가능한 음역어(240)에 대한 신뢰값은 주어진 제 2 가능한 음역어(240) 및 제 1 가능한 음역어(230)의 음역 점수(225)의 함수일 수 있다. 예컨대, 제 1 가능한 음역어(230)인 "sreeram"에 관하여 제 2 가능한 음역어(240)인 "shriram"에 대한 신뢰값은 음역 점수(225) score_E1 _to _H2 및 score_E3 _to _H2의 함수일 수 있으며, 2개의 음역어는 모두 H2에 매핑된다.

일부 구현의 경우, 주어진 제 2 가능한 음역어(240)에 대한 신뢰값은 웹 리소스에서 주어진 제 2 가능한 음역어(240)의 발생 확률의 함수이다. 예컨대, 발생 확률은 주어진 제 2 가능한 음역어(240)의 웹 리소스에서의 도메인 당 기여분 혹은 웹 리소스에서의 페이지 당 기여분일 수 있다. 일반적으로, 더 높은 발생 확률은 주어진 제 2 가능한 음역어(240)가 소스 언어에서의 용어로부터의 더욱 보편적인 음역 형태라는 점을 나타낸다. 더 높은 확률은 보편적인 음역어에 있어서 더 높은 신뢰도를 나타내며, 이는 해당 음역어에 대한 더 높은 신뢰값에 반영될 수 있다.

일부 구현에서, 주어진 제 2 가능한 음역어(240)에 대한 신뢰값은 예컨대 음역 점수(225)와 발생 확률과 같은 복수의 컴포넌트에 대한 함수이다. 비록 도 2c가 제 2 가능한 음역어(240)로서 제 1 가능한 음역어(230)로부터도 매핑되는 소스 언어에서의 용어(220)에 매핑되는 모든 가능한 음역어를 포함하고 있지만, 후보 그룹의 신뢰성을 높이기 위한 상술한 기술 중 어떤 구현이라도 도 2c에 기술된 제 2 가능한 음역어(240)의 하위 그룹으로 후보 동의어의 그룹을 감축할 수 있다.

일부 구현에서는, 본 시스템은 제 2 가능한 음역어(240)에 부가하여, 혹은 그 대신에 제 1 가능한 음역어(230)의 후보 동의어로서 제 2 가능한 음역어(240) 중 적어도 하나와 제 1 가능한 음역어(230)로부터 매핑되는 소스 언어에서의 용어(220) 중 하나 이상을 확인한다. 예컨대, 제 1 가능한 음역어(230) "sreeram"의 경우, 본 시스템은 "sreeram"의 후보 동의어로서 용어 H2와 H6을 확인할 수 있다. 일부 구현의 경우, 본 시스템은 후보 동의어 그룹으로서 타겟 언어에서의 동일한 음역어로부터 매핑되는 소스 언어에서의 용어(220)를 확인한다. 도 2c의 예의 경우, 본 시스템은 후보 동의어 그룹으로서 동일한 음역어 "sreeram" 및 "shreeram"으로부터 매핑된 용어 H2와 H6를 확인할 수 있다.

본 시스템은 쿼리 확장을 위하여 후보 음역 동의어(즉, 제 2 가능한 음역어(240))를 사용할 수 있다. 예컨대, 검색 시스템(예컨대, 도 1의 검색 시스템(114))이 제 1 가능한 음역어(230)를 포함하는 쿼리를 수신하는 경우, 본 검색 시스템은 제 1 가능한 음역어(230)의 하나 이상의 후보 음역 동의어를 확인할 수 있다. 제 1 가능한 음역어(230)의 확인된 후보 음역 동의어 중 하나 이상으로 쿼리를 확장할 수 있다. 도 2c의 예에서, 본 시스템은 "shriram", "shreeram" 및 "sriraam" 중 하나 이상을 포함하도록 "sreeram"을 포함하는 쿼리를 확장할 수 있다. 일부 구현에서, 본 시스템은 신뢰값에 의하여 후보 동의어를 순위 매기고, 본 시스템은 확장형 쿼리에 포함시키기 위하여 N개의 가장 높은 신뢰값을 갖는 N개의 후보 동의어만을 선택한다. 본 시스템은 검색 엔진(예컨대, 도 1의 검색 엔진(130))에 확장된 쿼리를 제공하며, 확장된 쿼리에 대한 검색 결과를 수신한다.

일부 구현에서, 만약 본 시스템이 주어진 음역어에 대한 후보 음역 동의어로서 가능한 음역어를 선택한다면, 본 시스템은 가능한 음역어에 대한 후보 음역 동의어로서 주어진 음역어도 선택한다. 일부 구현에서, 만약 본 시스템이 주어진 음역어에 대한 후보 음역 동의어로서 가능한 음역어를 선택한다면, 본 시스템은 가능한 음역어에 대한 후보 음역 동의어로서 주어진 음역어를 선택하지 않는다. 즉, 음역 동의어의 리버스 매핑(Reverse Mapping)이 있을 수도, 있지 않을 수도 있다. 예컨대, 만약 제 1 음역어 "a"가 거의 사용되지 않고 제 2 음역어 "b"가 자주 사용된다면, "b"로 "a"의 쿼리를 확장하는 것은 일반적으로 이치에 맞는데, 왜냐하면 확장이 회신되는 더 많은 검색 결과를 가져올 것이기 때문이다. 그러나, "a"로 "b"의 쿼리를 자동 확장하는 것은 이치에 맞지 않을 수 있는데, 이는 해당 확장이 관련성이 없는 검색 결과를 회신할 수 있기 때문이다.

일부 구현에서, 하나 이상의 후보 음역 동의어로 쿼리를 확장하는 것 대신에, 쿼리 검색의 문서측 상에서 주어진 음역어에 후보 음역 동의어를 매핑하는 것 이 발생한다. 상술한 예의 경우, 만약 이용자가 음역어 "a"가 아닌 "b"라는 음역어를 포함하는 쿼리를 제시하고, 웹 문서는 "b"가 아니라 "a"를 포함한다면, 본 검색 시스템(예컨대, 도 1의 검색 시스템(114))은 해당 웹 문서가 "b"를 포함하는 검색에 대한 후보 검색 결과가 되도록 마치 해당 웹 문서가 "b"도 포함하는 것처럼 웹 문서를 취급할 수 있다. 그러나, 그 웹 문서는 실제로는 "b"를 포함하지 않으므로, 본 검색 시스템은 해당 웹 문서와 관련된 점수(예컨대, 후보 검색 결과로서 해당 웹 문서를 순위 매기기 위한 정보 검색 점수)를 줄일 수 있으며, 이는 결과적으로 검색에 대해 해당 웹 문서가 회신될 확률을 줄일 수 있다.

일부 구현에서, 후보 동의어의 문서 레벨 매핑은 소스 언어에서 하나 이상의 용어(220)를 포함한다. 도 2c의 예에서, 본 검색 시스템은 마치 웹 문서가 힌디어 단어 H2 혹은 H6를 포함하는 것처럼 "sreeram"을 포함하는 웹 문서를 취급할 수 있다. 또한, 본 검색 시스템은 그에 따라 해당 웹 문서와 연계된 점수를 줄일 수도 있다.

도 3은 음역어에 대한 후보 동의어를 확인하기 위한 예시적인 프로세스(300)의 순서도이다. 편의상 본 예시적인 프로세스(300)는 도 2a 내지 도 2c의 예시적인 기술과 본 프로세스(300)를 수행하는 시스템을 참조하여 설명될 것이다.

본 시스템은 타겟 언어에서 복수의 음역어를 확인한다(스텝 310). 예컨대, 본 시스템은 도 2a의 리스트(210)의 가능한 음역어들을 확인한다.

타겟 언어에서의 복수의 음역어 중 각각의 음역어에 대하여, 본 시스템은 소스 언어에서 하나 이상의 용어에 상기 음역어를 매핑한다(스텝 320). 도 2b는 영어 -힌디어 번역기를 이용한 매핑의 예를 나타낸다.

타겟 언어에서의 복수의 음역어 중 각각의 음역어에 대하여, 본 시스템은 제 1 음역어의 후보 동의어로서 상기 복수의 음역어 중 하나 이상의 제 2 음역어를 확인한다(스텝 330). 하나 이상의 제 2 음역어 각각은 제 1 음역어로부터도 매핑되는 소스 언어에서의 적어도 하나의 용어에 매핑된다. 예컨대, 도 2c는 제 1 가능한 음역어(230)(즉, "sreeram")의 후보 동의어로서 확인된 제 2 가능한 음역어(240)(즉, "shriram", "shreeram" 및 "sriraam")를 나타낸다. 이 후보 동의어는 예컨대 도 4를 참조하여 설명한 바와 같이 쿼리 확장을 위해 사용될 수 있다.

도 4는 후보 동의어와 음역어를 포함하는 확장형 쿼리에 대한 검색 결과를 제공하기 위한 예시적인 프로세스(400)의 순서도이다. 편의상 본 예시적인 프로세스(400)는 도 2a 내지 도 2c의 예시적인 기술과 본 프로세스(400)를 수행하는 시스템을 참조하여 설명될 것이다.

본 시스템은 제 1 음역어를 포함하는 쿼리를 수신한다(스텝 410). 예컨대, 쿼리는 도 2c에 도시된 "sreeram"이라는 음역어를 포함할 수 있다.

본 시스템은 이용자의 선택을 위하여 하나 이상의 확장형 쿼리를 제공하는데, 여기서 각각의 확장형 쿼리는 제 1 음역어의 하나 이상의 후보 동의어와 쿼리를 포함한다(스텝 420). 후보 동의어는 예컨대 도 3의 예시적인 프로세스(300)를 사용하여 확인될 수 있다. "sreeram"이라는 음역어를 포함하는 쿼리에 대하여, 본 시스템은 도 2c에 나타낸 바와 같이 "shriram", "shreeram" 및 "sriraam" 중 하나 이상을 역시 포함하는 확장형 쿼리를 제공할 수 있다.

본 시스템은 이용자로부터 확장형 쿼리의 선택을 수신한다(스텝 430). 예컨대, 확장형 쿼리는 클라이언트 장치(예컨대, 도 1의 클라이언트 장치(104)) 상에서 구동하는 웹 브라우저의 인터페이스 상에서 선택 가능한 하이퍼링크로서 해당 이용자에게 제공될 수 있다. 본 시스템은 선택된 확장형 쿼리에 대한 하이퍼링크의 사용에 의한 선택으로서 확장형 쿼리의 선택을 수신할 수 있다. 일부 구현의 경우, 본 시스템은 하나 이상의 후보 동의어로 확장형 쿼리를 생성하고, 스텝 420 및 430을 수행하지 않고 스텝 440으로 진행한다.

본 시스템은 검색 엔진에 확장형 쿼리를 제공한다(스텝 440). 예컨대, 본 시스템은 도 1의 검색 엔진(130)에 상기 확장형 쿼리를 제시할 수 있다. 검색 엔진은 본 시스템에 확장형 쿼리에 대한 검색 결과를 전송하면서 검색을 수행한다. 본 시스템은 확장형 쿼리에 대한 검색 결과를 수신한다(스텝 450).

일부 구현에서, 본 시스템은 쿼리를 확장하지 않고 검색 엔진에 스텝 410의 수신된 쿼리를 제공한다. 그 대신에, 본 시스템은 도 2c를 참조하여 설명한 바와 같이 문서 레벨 매핑을 수행한다. 예컨대, 본 검색 엔진은 제 1 음역어의 후보 동의어 중 적어도 하나를 포함하지만 쿼리에 어떤 용어(예컨대, 제 1 음역어)도 포함하지는 않는 웹 리소스를 해당 쿼리에 대한 가능한 검색 결과로서 확인할 수 있다. 선택적으로는, 검색 엔진은 쿼리에 어떤 용어(예컨대, 제 1 음역어)도 포함하지 않지만 제 1 음역어 및 적어도 하나의 후보 동의어로부터 매핑되는 소스 언어에서의 용어 중 적어도 하나를 포함하는 웹 리소스를 해당 쿼리에 대한 가능한 검색 결과로서 확인할 수 있다. 문서 레벨 매핑이 구현되는 경우, 본 시스템은 가능한 검색 결과로서 확인된 웹 리소스와 연계되는 랭킹에 사용하기 위한 점수를 수정(예컨대, 감소)할 수 있다.

도 5는 음역어에 대한 후보 동의어를 확인하기 위한 예시적인 프로세스(500)의 순서도이다. 편의상 본 예시적인 프로세스(500)는 본 프로세스(500)를 수행하는 시스템을 참조하여 설명될 것이다. 일반적으로 본 프로세스(500)는 타겟 언어에서의 음역어에 대한 스펠링에 있어서 가능한 편차를 직접 학습한다. 음역된 동의어가 일반적으로 발음 표기 상으로는 유사하므로, 음역된 동의어들 간의 편차는 언어 특정적이다.

본 시스템은 타겟 언어에서의 가능한 음역 동의어의 트레이닝 그룹을 생성한다(스텝 510). 본 시스템은 타겟 언어에서의 음역 동의어에 있어서 스펠링 편차의 확률을 학습하기 위해 트레이닝 그룹을 사용하여 확률 모델을 트레이닝한다(스텝 520). 본 시스템은 특정한 음역어(스텝 530)의 하나 이상의 후보 동의어를 확인하기 위하여 타겟 언어에서의 특정한 음역어에 상기 확률 모델을 적용한다(스텝 530). 본 시스템은 상술한 바와 같이 쿼리 확장을 위해 상기 후보 동의어를 사용할 수 있다.

본 명세서에서 설명한 기능적인 동작과 주제의 실시형태는, 본 명세서에 개시된 구조와 그 구조적인 등가물을 포함하여 디지털 전자 회로, 컴퓨터 소프트웨어, 펌웨어 또는 하드웨어로, 혹은 이들 중 하나 이상의 조합으로 구현 가능하다. 본 명세서에서 설명한 주제의 실시형태는 하나 이상의 컴퓨터 프로그램 제품, 즉 데이터 처리 장치의 동작을 제어하거나 이것에 의해 실행되기 위하여 실체적 인(Tangible) 프로그램 매체 상에 인코딩된 컴퓨터 프로그램 명령으로 된 하나 이상의 모듈로서 구현 가능하다. 실체적인 프로그램 매체는 전파형 신호나 컴퓨터로 판독 가능한 매체일 수 있다. 전파형 신호는 인공적으로 생성된 신호, 예컨대 기계 생성된 전기적, 광학적 혹은 전자기적 신호로서, 이는 컴퓨터에 의한 실행을 위해 적절한 수신기 장치로의 전송을 위한 정보를 인코딩하도록 생성된다. 컴퓨터로 판독 가능한 매체는 기계로 판독 가능한 저장 장치, 기계로 판독 가능한 저장 기판, 메모리 장치, 기계로 판독 가능한 전파형 신호에 영향을 미치는 물질의 조성물 혹은 이들 중 하나 이상의 조합일 수 있다.

"데이터 처리 장치"라는 용어는 예컨대 프로그래머블 프로세서, 컴퓨터 혹은 다중 프로세서나 컴퓨터를 포함하여 데이터를 처리하기 위한 모든 장치, 기구 및 기계를 포괄한다. 본 장치는 하드웨어 외에도, 예컨대 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영체제 혹은 이들 중 하나 이상의 조합을 구성하는 코드와 같이, 요청 시 컴퓨터 프로그램에 대한 실행 환경을 형성하는 코드를 포함할 수 있다.

컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 어플리케이션, 스크립트 혹은 코드라고도 함)은 컴파일되거나 해석된 언어, 선언형 언어나 절차적 언어를 포함하는 모든 형태의 프로그래밍 언어로 작성 가능하며, 독립형 프로그램이나 모듈, 컴포넌트, 서브루틴 혹은 컴퓨터 환경에서 사용하기에 적합한 기타의 유닛을 포함하여 어떠한 형태로도 전개될 수 있다. 컴퓨터 프로그램이 파일 시스템의 파일에 반드시 대응해야 하는 것은 아니다. 프로그램은 요청된 프로그램에 제공되는 단 일 파일 내에, 혹은 다중의 상호 작용하는 파일(예컨대, 하나 이상의 모듈, 하위 프로그램 혹은 코드의 일부를 저장하는 파일) 내에, 혹은 다른 프로그램이나 데이터를 보유하는 파일의 일부(예컨대, 마크업 언어 문서 내에 저장되는 하나 이상의 스크립트) 내에 저장될 수 있다. 컴퓨터 프로그램은 하나의 사이트에 위치하거나 복수의 사이트에 걸쳐서 분산되어 통신 네트워크에 의해 상호 접속된 다중 컴퓨터나 단일 컴퓨터 상에서 실행되도록 전개될 수 있다.

본 명세서에서 설명한 프로세스와 논리 흐름은 입력 데이터 상에서 동작하고 출력을 생성함으로써 기능을 수행하기 위한 하나 이상의 프로그램을 실행하는 하나 이상의 프로그래머블 프로세서에 의해 수행 가능하다. 본 프로세스와 논리 흐름은 예컨대 FPGA(Field Programmable Gate Array)나 ASIC(Application-Specific Integrated Circuit)과 같은 특수 목적의 논리 회로에 의해 수행될 수도 있으며, 장치는 이러한 것으로서 구현될 수도 있다.

컴퓨터 프로그램의 실행에 적합한 프로세서는, 예컨대 범용 및 특수 목적의 마이크로프로세서 양쪽 및 어떤 종류의 디지털 컴퓨터의 어떠한 하나 이상의 프로세서라도 포함한다. 일반적으로, 프로세서는 읽기 전용 메모리나 랜덤 액세스 메모리 혹은 양자로부터 명령과 데이터를 수신할 것이다. 컴퓨터의 핵심적인 요소는 명령과 데이터를 저장하기 위한 하나 이상의 메모리 장치 및 명령을 수행하기 위한 프로세서이다. 또한, 컴퓨터는 일반적으로 예컨대 자기, 자기광학 디스크나 광학 디스크와 같은 데이터를 저장하기 위한 하나 이상의 대량 저장 장치로부터 데이터를 수신하거나 그것으로 데이터를 전송하거나 혹은 그러한 동작 둘 다를 수행하도 록 동작 가능하게 결합되거나 포함할 것이다. 그러나, 컴퓨터가 이러한 장치들을 구비해야 하는 것은 아니다. 나아가 컴퓨터는, 몇 가지만 언급하자면, 예컨대 이동전화, PDA, 모바일 오디오 혹은 비디오 플레이어, 게임 콘솔, GPS 수신기, 구어 입력부를 갖는 장치와 같은 다른 장치에서 구체화될 수 있다. 스마트폰은 구어 입력부를 갖는 장치의 예이며, 이는 음성 입력(예컨대, 해당 장치 상의 마이크로폰으로 말하여지는 이용자 쿼리)을 받아들일 수 있다.

컴퓨터 프로그램 명령과 데이터를 저장하기에 적합한 컴퓨터로 판독 가능한 매체는 예컨대 EPROM, EEPROM 및 플래시메모리 장치와 같은 반도체 메모리 장치, 예컨대 내부 하드디스크나 외장형 디스크와 같은 자기 디스크, 자기광학 디스크 및 CD-ROM과 DVD-ROM 디스크를 포함하여 모든 형태의 비휘발성 메모리, 매체 및 메모리 장치를 포함한다. 프로세서와 메모리는 특수 목적의 논리 회로에 의해 보완되거나, 그것에 통합될 수 있다.

이용자와의 상호 작용을 제공하기 위하여, 본 명세서에서 설명한 주제의 실시형태는 이용자에게 정보를 디스플레이하기 위하여 예컨대 CRT나 LCD 모니터와 같은 디스플레이 장치를 구비하고, 이용자가 컴퓨터에 입력을 제공할 수 있는 예컨대 마우스나 트랙볼(Trackball)과 같은 지시 장치 및 키보드를 구비하는 컴퓨터 상에서 구현될 수 있다. 물론 다른 종류의 장치도 이용자와의 상호 작용을 제공하기 위하여 사용 가능한데, 예컨대 이용자에게 제공되는 피드백은 가시적인 피드백, 가청 피드백 혹은 촉각형 피드백과 같은 감각적인 피드백의 어떠한 형태일 수도 있으며, 이용자로부터의 입력은 음향, 발성 혹은 촉각적 입력을 포함하는 어떠한 형태로도 수신 가능하다.

본 명세서에서 설명한 주제의 실시형태는 예컨대 데이터 서버와 같은 백엔드(Back-end) 컴포넌트를 포함하거나, 예컨대 어플리케이션 서버와 같은 미들웨어(Middleware) 컴포넌트를 포함하거나, 예컨대 이용자가 본 명세서에서 설명한 주제의 구현물과 상호 작용할 수 있는 웹 브라우저나 그래픽 유저 인터페이스를 갖는 클라이언트 컴퓨터와 같은 프론트엔드(Front-end) 컴포넌트 혹은 그러한 백엔드, 미들웨어 혹은 프론트엔드 컴포넌트 중 하나 이상의 어떠한 조합이라도 포함하는 연산 시스템에서 구현될 수 있다. 시스템의 컴포넌트는 예컨대 통신 네트워크와 같은 디지털 데이터 통신의 어떠한 형태나 매체에 의해서도 상호 접속 가능하다. 통신 네트워크의 예로는 LAN(Local Area Network) 및 예컨대 인터넷과 같은 WAN(Wide Area Network)이 포함된다.

연산 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 보통 서로 떨어져 있으며, 일반적으로는 통신 네트워크를 통하여 상호 작용한다. 클라이언트와 서버의 관계는 각각의 컴퓨터 상에서 구동되고 서로에 대하여 클라이언트-서버 관계를 갖는 컴퓨터 프로그램에 의하여 발생한다.

본 명세서가 다수의 세부사항들을 포함하고 있지만, 이는 청구 가능한 것 혹은 본 발명의 범위에 대한 제한으로서 이해되어서는 안되며, 특정 발명의 특정한 구현예에 특유한 특징일 수 있는 구성요소의 설명으로서 이해되어야 한다. 별개의 실시형태의 문맥으로 본 명세서에서 설명한 특정한 특징들은 단일 실시형태로 조합해서 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 설명한 다양한 특징들 은 복수의 실시형태에서 별개로 구현되거나 적당한 하위 조합으로 구현될 수도 있다. 나아가, 특정 조합에서 동작하는 것으로서 특징들을 설명하고 그와 같이 초기에 청구할 수도 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 해당 조합으로부터 삭제될 수 있으며, 청구된 조합은 하위 조합이나 하위 조합의 변형으로 될 수 있다.

마찬가지로, 도면에서 특정한 순서로 동작을 묘사하고 있지만, 이는 나타낸 특정 순서나 순차적인 순서로 그러한 동작들이 수행되어야 한다거나, 바람직한 결과를 얻기 위하여 설명한 모든 동작들이 수행되어야 한다는 식으로 이해해서는 안된다. 특정한 경우, 멀티태스킹 및 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태에 있어서 다양한 시스템 컴포넌트의 분리가 모든 실시형태에서 그러한 분리를 요구하는 식으로 이해되어서는 안 되며, 일반적으로 설명한 프로그램 컴포넌트 및 시스템은 복수의 소프트웨어 제품에 패키징되거나 단일 소프트웨어 제품에 함께 공통적으로 통합될 수 있다는 점을 이해해야 한다.

본 명세서에서 설명한 주제의 특정한 실시형태를 설명하였다. 기타의 실시행태는 다음의 청구항의 범위 내에 존재한다. 예컨대, 청구항에서 인용한 동작을 다른 순서로 수행하여도 여전히 바람직한 결과를 달성할 수 있다. 일 예로서, 첨부도면에 묘사된 프로세스는 바람직한 결과를 얻기 위하여 나타낸 특정한 순서나 순차적인 순서를 반드시 요구하는 것은 아니다. 특정한 구현예의 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다.

도 1은 예시적인 검색 시스템의 블록도.

도 2a 내지 도 2c는 음역된 용어에 대한 후보 동의어를 확인하기 위한 예시적인 기술을 나타내는 도면.

도 3은 음역된 용어에 대한 후보 동의어를 확인하기 위한 예시적인 프로세스의 순서도.

도 4는 음역된 용어와 후보 동의어를 포함하는 확장형 쿼리에 대한 검색 결과를 제공하기 위한 예시적인 프로세스의 순서도.

도 5는 음역된 용어에 대한 후보 동의어를 확인하기 위한 예시적인 프로세스의 순서도.

Claims

컴퓨터로 구현되는 방법에 있어서,

하나 이상의 컴퓨터를 이용하여, 타겟 언어에서의 복수의 음역어를 확인하는 단계;

상기 타겟 언어에서의 복수의 음역어 중 각 음역어에 대하여, 소스 언어에서의 하나 이상의 용어에 상기 음역어를 매핑하는 단계; 및

상기 타겟 언어에서의 복수의 음역어 중 제 1 음역어에 대하여, 상기 타겟 언어에서의 복수의 음역어 중 하나 이상의 제 2 음역어를 상기 제 1 음역어의 후보 동의어로서 확인하는 단계를 포함하며,

상기 하나 이상의 제 2 음역어 각각은 상기 제 1 음역어로부터도 매핑되는 상기 소스 언어에서의 적어도 하나의 용어에 매핑되는 것을 특징으로 하는 방법.
제 1 항에 있어서,

상기 타겟 언어에서의 복수의 음역어를 확인하는 단계는, 상기 타겟 언어의 문자만을 포함하는 용어를 웹 리소스로부터 확인하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제 2 항에 있어서,

상기 타겟 언어의 문자만을 포함하는 각 확인 용어에 대한 통계치를 연산하 는 단계;

상기 각 확인 용어에 대한 상기 통계치를 특정 임계값에 비교하는 단계; 및

특유의 확인 용어에 대한 상기 통계치가 상기 특정 임계값을 초과한다면, 상기 타겟 언어에서의 복수의 음역어에 상기 특유의 확인 용어를 포함시키는 단계를 더 포함하는 것을 특징으로 하는 방법.
제 3 항에 있어서,

상기 각 확인 용어에 대한 상기 통계치는, 상기 소스 언어가 말하여지는 하나 이상의 장소와 연계된 최상위 도메인의 웹 리소스에서 상기 확인 용어가 발생할 확률 대 어떤 장소라도 연계된 최상위 도메인의 웹 리소스에서 상기 확인 용어가 발생할 확률의 비인 것을 특징으로 하는 방법.
제 3 항에 있어서,

상기 각 확인 용어에 대한 상기 통계치는, 상기 소스 언어가 말하여지는 하나 이상의 장소와 연계된 웹 리소스에서 상기 확인 용어가 발생할 확률 대 어떤 장소라도 연계된 웹 리소스에서 상기 확인 용어가 발생할 확률의 비인 것을 특징으로 하는 방법.
제 5 항에 있어서,

상기 소스 언어가 사용되는 장소와 웹 리소스의 연계는 상기 웹 리소스의 최 상위 도메인에 의해 결정되는 것을 특징으로 하는 방법.
제 1 항에 있어서,

상기 소스 언어에서의 하나 이상의 용어에 상기 음역어를 매핑하는 단계는, 상기 타겟 언어에서의 상기 음역어를 상기 소스 언어에서의 상기 하나 이상의 용어로 음역하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제 7 항에 있어서,

상기 제 1 음역어의 후보 동의어로서 확인된 상기 하나 이상의 제 2 음역어 각각은 특정 임계값을 넘는 상기 제 1 음역어에 대하여 신뢰값을 가지는 것을 특징으로 하는 방법.
제 8 항에 있어서,

상기 제 2 음역어의 상기 신뢰값은, 상기 제 1 음역어와 상기 제 2 음역어 양자로부터 매핑되는 상기 소스 언어에서의 용어의 수에 관한 함수인 것을 특징으로 하는 방법.
제 8 항에 있어서,

상기 타겟 언어에서의 상기 음역어를 상기 소스 언어에서의 용어로 음역하는 단계는, 상기 타겟 언어에서의 상기 음역어의 상기 소스 언어에서 상기 용어로의 음역에 대한 음역 점수를 생성하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제 10 항에 있어서,

상기 제 2 음역어의 상기 신뢰값은, 웹 리소스에서 상기 제 2 음역어의 발생 확률, 상기 제 2 음역어의 상기 제 1 음역어로부터도 매핑되는 상기 소스 언어에서의 용어로의 음역에 대한 상기 음역 점수, 및 상기 제 1 음역어의 상기 소스 언어에서의 용어로의 음역에 대한 상기 음역 점수 중 하나 이상의 함수인 것을 특징으로 하는 방법.
제 1 항에 있어서,

상기 타겟 언어에서의 상기 복수의 음역어 중 상기 제 1 음역어에 대하여, 상기 제 1 음역어 및 상기 제 1 음역어의 후보 동의어로서 상기 하나 이상의 제 2 음역어 중 적어도 하나로부터 매핑되는 상기 소스 언어에서의 하나 이상의 용어를 확인하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제 1 항에 있어서,

상기 제 1 음역어를 포함하는 쿼리를 수신하는 단계;

상기 제 1 음역어의 상기 후보 동의어 중 하나 이상으로 상기 쿼리를 확장하는 단계;

상기 확장된 쿼리를 검색 엔진에 제공하는 단계; 및

상기 확장된 쿼리에 대한 검색 결과를 수신하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제 1 항에 있어서,

상기 제 1 음역어를 포함하는 쿼리를 수신하는 단계; 및

이용자의 선택을 위하여 하나 이상의 확장된 쿼리를 제공하는 단계를 더 포함하고,

상기 확장된 쿼리 각각은, 상기 쿼리 및 상기 제 1 음역어의 상기 후보 동의어 중 하나 이상을 포함하는 것을 특징으로 하는 방법.
제 1 항에 있어서,

상기 제 1 음역어를 포함하는 쿼리를 수신하는 단계;

상기 제 1 음역어의 상기 후보 동의어 중 적어도 하나를 포함하지만 상기 쿼리의 용어는 포함하지 않는 웹 리소스를 상기 쿼리에 대한 가능한 검색 결과로서 확인하는 검색 엔진에 상기 쿼리를 제공하는 단계; 및

상기 웹 리소스와 연계된 점수를 수정하는 단계를 더 포함하며,

상기 점수는 상기 쿼리에 대한 가능한 검색 결과를 순위 매기는데 사용하기 위한 것임을 특징으로 하는 방법.
제 1 항에 있어서,

상기 제 1 음역어를 포함하는 쿼리를 수신하는 단계;

상기 제 1 음역어 및 상기 하나 이상의 제 2 음역어 중 적어도 하나로부터 매핑되는 상기 소스 언어에서의 용어 중 적어도 하나를 포함하지만 상기 쿼리에서의 용어는 포함하지 않는 웹 리소스를 상기 쿼리에 대한 가능한 검색 결과로서 확인하는 검색 엔진에 상기 쿼리를 제공하는 단계; 및

상기 웹 리소스와 연계된 정보 검색 점수를 수정하는 단계를 더 포함하며,

상기 정보 검색 점수는 상기 쿼리에 대한 가능한 검색 결과를 순위 매기는데 사용하기 위한 것임을 특징으로 하는 방법.
컴퓨터로 구현되는 방법에 있어서,

하나 이상의 컴퓨터를 이용하여, 타겟 언어로 가능한 음역 동의어들의 트레이닝 그룹을 생성하는 단계;

상기 타겟 언어에서의 음역 동의어에 있어서 스펠링 편차의 확률을 학습하기 위해 상기 트레이닝 그룹을 이용하여 확률 모델을 트레이닝하는 단계; 및

상기 타겟 언어에서의 특유의 음역어에 상기 확률 모델을 적용하여, 상기 특유의 음역어의 하나 이상의 후보 동의어를 확인하는 단계를 포함하는 것을 특징으로 하는 방법.
타겟 언어에서의 복수의 음역어를 확인하는 동작;

상기 타겟 언어에서의 복수의 음역어 중 각 음역어에 대하여, 소스 언어에서 의 하나 이상의 용어에 상기 음역어를 매핑하는 동작; 및

상기 타겟 언어에서의 복수의 음역어 중 제 1 음역어에 대하여, 상기 타겟 언어에서의 복수의 음역어 중 하나 이상의 제 2 음역어를 상기 제 1 음역어의 후보 동의어로서 확인하는 동작을 포함하는 동작을 수행하도록 구성된 하나 이상의 컴퓨터를 구비하고,

상기 하나 이상의 제 2 음역어 각각은 상기 제 1 음역어로부터도 매핑되는 상기 소스 언어에서의 적어도 하나의 용어에 매핑되는 것을 특징으로 하는 시스템.
타겟 언어로, 가능한 음역 동의어들의 트레이닝 그룹을 생성하는 동작;

상기 타겟 언어에서의 음역 동의어에 있어서 스펠링 편차의 확률을 학습하기 위해 상기 트레이닝 그룹을 이용하여 확률 모델을 트레이닝하는 동작; 및

상기 타겟 언어에서의 특유의 음역어에 상기 확률 모델을 적용하여, 상기 특유의 음역어의 하나 이상의 후보 동의어를 확인하는 동작을 포함하는 동작을 수행하도록 구성된 하나 이상의 컴퓨터를 구비하는 것을 특징으로 하는 시스템.
컴퓨터로 구현되는 방법에 있어서,

하나 이상의 컴퓨터를 이용하여, 타겟 언어에서의 복수의 음역어를 확인하는 단계;

상기 타겟 언어에서의 복수의 음역어 중 제 1 음역어에 대하여, 상기 타겟 언어에서의 복수의 음역어 중 하나 이상의 제 2 음역어를 상기 제 1 음역어의 후보 동의어로서 확인하는 단계; 및

상기 제 1 음역어를 포함하는 쿼리를 확장하기 위하여, 상기 제 1 음역어의 상기 후보 동의어를 이용하는 단계를 포함하는 것을 특징으로 하는 방법.