KR20100009520A - 쿼리 확장을 위한 음역 - Google Patents

쿼리 확장을 위한 음역 Download PDF

Info

Publication number
KR20100009520A
KR20100009520A KR1020090065978A KR20090065978A KR20100009520A KR 20100009520 A KR20100009520 A KR 20100009520A KR 1020090065978 A KR1020090065978 A KR 1020090065978A KR 20090065978 A KR20090065978 A KR 20090065978A KR 20100009520 A KR20100009520 A KR 20100009520A
Authority
KR
South Korea
Prior art keywords
transliteration
query
term
target language
language
Prior art date
Application number
KR1020090065978A
Other languages
English (en)
Inventor
피유쉬 프라흘라드카
랄리테쉬 카트라가따
비니엣 구프타
Original Assignee
구글 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 인코포레이티드 filed Critical 구글 인코포레이티드
Publication of KR20100009520A publication Critical patent/KR20100009520A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

쿼리 확장을 위하여 음역어의 후보 동의어를 확인하기 위해, 컴퓨터 프로그램 제품을 포함하여 방법, 시스템 및 장치가 제공된다. 일 측면에서, 방법은 타겟 언어에서의 복수의 음역어를 확인하는 단계를 포함한다. 상기 타겟 언어에서의 복수의 음역어 중 각 음역어에 대하여, 소스 언어에서의 하나 이상의 용어에 상기 음역어를 매핑한다. 상기 타겟 언어에서의 복수의 음역어 중 제 1 음역어에 대하여, 상기 타겟 언어에서의 복수의 음역어 중 하나 이상의 제 2 음역어를 상기 제 1 음역어의 후보 동의어로서 확인하며, 여기서 상기 하나 이상의 제 2 음역어 각각은 상기 제 1 음역어로부터도 매핑되는 상기 소스 언어에서의 적어도 하나의 용어에 매핑된다.

Description

쿼리 확장을 위한 음역{TRANSLITERATION FOR QUERY EXPANSION}
본 명세서는 쿼리를 검색 엔진에 제시하는 이용자를 위한 쿼리 확장에 관한 것이다.
검색 엔진, 그리고 특히 인터넷 검색 엔진은 이용자의 요구와 관련된 리소스(예컨대, 웹페이지, 이미지, 텍스트 문서, 멀티미디어 컨텍스트)를 확인하고, 그 이용자에게 가장 유용한 방식으로 해당 리소스에 관한 정보를 제공하는 것을 목적으로 한다. 인터넷 검색 엔진은 이용자가 제시한 쿼리에 응답하여 검색 결과를 회신한다. 만약 이용자가 쿼리에 대하여 회신된 검색 결과에 만족하지 않는다면, 그 이용자는 자신의 요구에 더 잘 부합하도록 쿼리를 상세하게 하려고 시도할 수 있다.
일부 검색 엔진은 제안형 선택적 쿼리, 예컨대 그 검색 엔진이 이용자의 쿼리와 관련되는 것으로서 확인하는 확장형 쿼리를 이용자에게 제공한다. 쿼리 확장을 위한 쿼리 단어의 동의어를 찾는 기술은 일반적으로 자연어(Natural Language) 모델이나 이용자 검색 로그 데이터에 의존한다. 쿼리 단어에 대하여 확인된 동의어는 이용자의 검색 경험을 개선하기 위하여 부가적이거나 더 관련성이 있는 리소스 를 확인하려는 시도에서 쿼리를 확장하는데 사용될 수 있다.
전자 문서는 보통 다수의 다양한 언어로 작성된다. 보통, 각 언어는 통상적으로 특정한 알파벳에 의해 특징지어지는 특유의 문자 체계(즉, 스크립트)로 표현된다. 예컨대, 영어는 라틴 알파벳을 이용하여 표현되는 반면, 힌디어는 보통 데바나가리 알파벳을 이용하여 표현된다. 일부 언어에 의해 사용되는 스크립트는 부가적인 부호나 문자를 포함하도록 확장된 특정한 알파벳을 포함한다. 음역의 경우, 일반적으로 한 언어의 스크립트는 다른 언어의 스크립트로 작성된 단어를 나타내는데 사용된다. 예컨대, 음역된 용어는 하나의 스크립트로부터 다른 스크립트로 변환된 용어이거나, 어떤 용어에 관한 하나의 스크립트를 다른 스크립트에서 발음 그대로 표시한 것일 수 있다. 쿼리 확장을 위하여 쿼리 단어의 동의어를 찾는 기술은 음역된 용어인 쿼리 용어의 동의어를 찾는데 있어서는 제대로 기능하지 못할 수 있다. 예컨대, 현재의 자연어 기술은 음역된 데이터와는 제대로 기능하지 못하고, 검색 로그 데이터는 대부분의 음역된 변화들을 제대로 커버하지 못한다.
본 명세서는 쿼리 확장을 위한 음역된 용어의 후보 동의어를 확인하는 것과 관련된 기술을 설명한다.
일반적으로, 본 명세서에서 설명하는 주제의 일 측면은, 하나 이상의 컴퓨터를 이용하여, 타겟 언어에서의 복수의 음역어를 확인하는 단계; 상기 타겟 언어에서의 복수의 음역어 중 각 음역어에 대하여, 소스 언어에서의 하나 이상의 용어에 상기 음역어를 매핑하는 단계; 및 상기 타겟 언어에서의 복수의 음역어 중 제 1 음역어에 대하여, 상기 타겟 언어에서의 복수의 음역어 중 하나 이상의 제 2 음역어를 상기 제 1 음역어의 후보 동의어로서 확인하는 단계를 포함하며, 상기 하나 이상의 제 2 음역어 각각은 상기 제 1 음역어로부터도 매핑되는 상기 소스 언어에서의 적어도 하나의 용어에 매핑되는 것을 특징으로 하는 컴퓨터로 구현되는 방법으로 구체화될 수 있다. 이러한 측면의 다른 실시형태에는 그에 대응하는 시스템, 장치 및 컴퓨터 프로그램 제품이 포함된다.
이들 및 다른 실시형태들은 선택적으로 다음의 특징 중 하나 이상을 포함할 수 있다. 상기 타겟 언어에서의 복수의 음역어를 확인하는 단계는, 상기 타겟 언어의 문자만을 포함하는 용어를 웹 리소스로부터 확인하는 단계를 더 포함할 수 있다. 본 측면은, 상기 타겟 언어의 문자만을 포함하는 각 확인 용어에 대한 통계치를 연산하는 단계; 상기 각 확인 용어에 대한 상기 통계치를 특정 임계값에 비교하 는 단계; 및 특유의 확인 용어에 대한 상기 통계치가 상기 특정 임계값을 초과한다면, 상기 타겟 언어에서의 복수의 음역어에 상기 특유의 확인 용어를 포함시키는 단계를 더 포함할 수 있다.
상기 각 확인 용어에 대한 상기 통계치는, 상기 소스 언어가 말하여지는 하나 이상의 장소와 연계된 최상위 도메인의 웹 리소스에서 상기 확인 용어가 발생할 확률 대 어떤 장소라도 연계된 최상위 도메인의 웹 리소스에서 상기 확인 용어가 발생할 확률의 비일 수 있다. 상기 각 확인 용어에 대한 상기 통계치는, 상기 소스 언어가 말하여지는 하나 이상의 장소와 연계된 웹 리소스에서 상기 확인 용어가 발생할 확률 대 어떤 장소라도 연계된 웹 리소스에서 상기 확인 용어가 발생할 확률의 비일 수 있다. 상기 소스 언어가 사용되는 장소와 웹 리소스의 연계는 상기 웹 리소스의 최상위 도메인에 의해 결정될 수 있다.
상기 소스 언어에서의 하나 이상의 용어에 상기 음역어를 매핑하는 단계는, 상기 타겟 언어에서의 상기 음역어를 상기 소스 언어에서의 상기 하나 이상의 용어로 음역하는 단계를 더 포함할 수 있다. 상기 제 1 음역어의 후보 동의어로서 확인된 상기 하나 이상의 제 2 음역어 각각은 특정 임계값을 넘는 상기 제 1 음역어에 대하여 신뢰값을 가질 수 있다. 상기 제 2 음역어의 상기 신뢰값은, 상기 제 1 음역어와 상기 제 2 음역어 양자로부터 매핑되는 상기 소스 언어에서의 용어의 수에 관한 함수일 수 있다. 상기 타겟 언어에서의 상기 음역어를 상기 소스 언어에서의 용어로 음역하는 단계는, 상기 타겟 언어에서의 상기 음역어의 상기 소스 언어에서 상기 용어로의 음역에 대한 음역 점수를 생성하는 단계를 더 포함할 수 있다. 상기 제 2 음역어의 상기 신뢰값은, 웹 리소스에서 상기 제 2 음역어의 발생 확률, 상기 제 2 음역어의 상기 제 1 음역어로부터도 매핑되는 상기 소스 언어에서의 용어로의 음역에 대한 상기 음역 점수, 및 상기 제 1 음역어의 상기 소스 언어에서의 용어로의 음역에 대한 상기 음역 점수 중 하나 이상의 함수일 수 있다.
본 측면은, 상기 타겟 언어에서의 상기 복수의 음역어 중 상기 제 1 음역어에 대하여, 상기 제 1 음역어 및 상기 제 1 음역어의 후보 동의어로서 상기 하나 이상의 제 2 음역어 중 적어도 하나로부터 매핑되는 상기 소스 언어에서의 하나 이상의 용어를 확인하는 단계를 더 포함할 수 있다. 본 측면은, 상기 제 1 음역어를 포함하는 쿼리를 수신하는 단계; 상기 제 1 음역어의 상기 후보 동의어 중 하나 이상으로 상기 쿼리를 확장하는 단계; 상기 확장된 쿼리를 검색 엔진에 제공하는 단계; 및 상기 확장된 쿼리에 대한 검색 결과를 수신하는 단계를 더 포함할 수 있다. 본 측면은, 상기 제 1 음역어를 포함하는 쿼리를 수신하는 단계; 및 이용자의 선택을 위하여 하나 이상의 확장된 쿼리를 제공하는 단계를 더 포함하고, 상기 확장된 쿼리 각각은, 상기 쿼리 및 상기 제 1 음역어의 상기 후보 동의어 중 하나 이상을 포함할 수 있다.
본 측면은, 상기 제 1 음역어를 포함하는 쿼리를 수신하는 단계; 상기 제 1 음역어의 상기 후보 동의어 중 적어도 하나를 포함하지만 상기 쿼리의 용어는 포함하지 않는 웹 리소스를 상기 쿼리에 대한 가능한 검색 결과로서 확인하는 검색 엔진에 상기 쿼리를 제공하는 단계; 및 상기 웹 리소스와 연계된 점수를 수정하는 단계를 더 포함하며, 상기 점수는 상기 쿼리에 대한 가능한 검색 결과를 순위 매기는 데 사용하기 위한 것일 수 있다. 본 측면은, 상기 제 1 음역어를 포함하는 쿼리를 수신하는 단계; 상기 제 1 음역어 및 상기 하나 이상의 제 2 음역어 중 적어도 하나로부터 매핑되는 상기 소스 언어에서의 용어 중 적어도 하나를 포함하지만 상기 쿼리에서의 용어는 포함하지 않는 웹 리소스를 상기 쿼리에 대한 가능한 검색 결과로서 확인하는 검색 엔진에 상기 쿼리를 제공하는 단계; 및 상기 웹 리소스와 연계된 정보 검색 점수를 수정하는 단계를 더 포함하며, 상기 정보 검색 점수는 상기 쿼리에 대한 가능한 검색 결과를 순위 매기는데 사용하기 위한 것일 수 있다.
본 명세서에서 설명하는 주제의 다른 측면은, 하나 이상의 컴퓨터를 이용하여, 타겟 언어로, 가능한 음역 동의어들의 트레이닝 그룹을 생성하는 단계; 상기 타겟 언어에서의 음역 동의어에 있어서 스펠링 편차의 확률을 학습하기 위해 상기 트레이닝 그룹을 이용하여 확률 모델을 트레이닝하는 단계; 및 상기 타겟 언어에서의 특유의 음역어에 상기 확률 모델을 적용하여, 상기 특유의 음역어의 하나 이상의 후보 동의어를 확인하는 단계를 포함하는 컴퓨터로 구현되는 방법으로 구체화될 수 있다. 이러한 측면의 다른 실시형태에는 그에 대응하는 시스템, 장치 및 컴퓨터 프로그램 제품이 포함된다.
본 명세서에서 설명하는 주제의 또 다른 측면은, 하나 이상의 컴퓨터를 이용하여, 타겟 언어에서의 복수의 음역어를 확인하는 단계; 상기 타겟 언어에서의 복수의 음역어 중 제 1 음역어에 대하여, 상기 타겟 언어에서의 복수의 음역어 중 하나 이상의 제 2 음역어를 상기 제 1 음역어의 후보 동의어로서 확인하는 단계; 및 상기 제 1 음역어를 포함하는 쿼리를 확장하기 위하여, 상기 제 1 음역어의 상기 후보 동의어를 이용하는 단계를 포함하는 컴퓨터로 구현되는 방법으로 구체화될 수 있다. 이러한 측면의 다른 실시형태에는 그에 대응하는 시스템, 장치 및 컴퓨터 프로그램 제품이 포함된다.
본 명세서에 기술된 주제의 특정한 실시형태는 다음 중 하나 이상의 이점을 실현하도록 구현될 수 있다. 음역된 용어는 특정한 음역된 용어에 대한 후보 동의어로서 확인되며, 이 후보 동의어는 그 특정한 음역된 용어를 포함하는 쿼리를 확장하는데 사용 가능하다. 타겟 언어에서 음역된 동의어는 더 새롭게 음역된 용어(예컨대, 현재의 뉴스 이야기나 현재의 문화적 관계에 의해 소스 언어의 용어로부터 음역된 용어)를 위해 확인 가능하며, 이는 이용자 검색 로그 데이터에 있어서 우수하지 못한 적용 범위를 가질 수 있다. 주어진 음역된 용어에 대한 후보 음역된 동의어를 포함하도록 이용자의 쿼리를 확장할 수 있는 시스템은 그와 동일한 쿼리 확장 능력을 갖지 않는 검색 시스템보다 더 나은 검색 결과를 회신할 수 있다.
본 명세서에서 기술된 주제에 관한 하나 이상의 실시형태의 세부사항들은 첨부 도면과 이하의 상세한 설명에서 제시된다. 본 주제의 다른 특징, 목적 및 이점은 본 상세한 설명, 도면 및 청구범위로부터 명백할 것이다.
다양한 도면에 있어서 동일한 참조 부호와 표시는 동일한 요소를 나타낸다.
도 1은 인터넷, 인트라넷 혹은 다른 클라이언트 및 서버 환경에서 구현 가능한 바와 같이, 제시된 쿼리에 관한 검색 결과를 제공하는데 사용 가능한 예시적인 검색 시스템(114)의 블록도이다. 본 검색 시스템(114)은 이하에 설명하는 본 시스템, 컴포넌트 및 기술이 구현될 수 있는 정보 검색 시스템의 일 예이다.
이용자(102)는 클라이언트 장치(104)를 통하여 본 검색 시스템(114)과 상호 작용할 수 있다. 예컨대, 클라이언트(104)는 예를 들어 인터넷과 같은 WAN(Wide Area Network)이나 LAN(Local Area Network)을 통해 검색 시스템(114)에 결합된 컴퓨터일 수 있다. 일부 구현예에서, 검색 시스템(114) 및 클라이언트 장치(104)는 단일 장치일 수 있다. 예컨대, 이용자는 클라이언트 장치(104) 상에 데스크탑 검색 어플리케이션을 설치할 수 있다. 클라이언트 장치(104)는 일반적으로 RAM(106) 및 프로세서(108)를 포함할 것이다.
이용자(102)는 검색 시스템(114) 내의 검색 엔진(130)에 쿼리(110)를 제시할 수 있다. 이용자(102)가 쿼리(110)를 제시하는 경우, 쿼리(110)는 네트워크를 통해 검색 시스템(114)으로 전송된다. 검색 시스템(114)은 예컨대 네트워크를 통해 상호 결합된 하나 이상의 위치에 있는 하나 이상의 컴퓨터 상에서 실행되는 컴퓨터 프로그램으로서 구현될 수 있다. 검색 시스템(114)은 색인 데이터베이스(122)와 검색 엔진(130)을 포함한다. 검색 시스템(114)은 쿼리(110)에 대하여 검색 결과(128)를 생성함으로써 응답하는데, 이는 (예컨대, 클라이언트 장치(104) 상에서 구동하는 웹 브라우저에서 디스플레이되는 검색 결과 웹 페이지와 같이) 이용자(102)에게 제공될 수 있는 형태로 클라이언트 장치(104)에 네트워크를 통하여 전송된다.
쿼리(110)가 검색 엔진(130)에 의해 수신될 때, 검색 엔진(130)은 쿼리(110)에 부합하는 리소스를 확인한다. 일반적으로 검색 엔진(130)은 리소스(예컨대, 웹 페이지, 이미지 혹은 인터넷 상의 뉴스 기사)를 색인하는 색인 엔진(120), 색인 정보를 저장하는 색인 데이터베이스(122) 및 쿼리(110)에 부합하는 리소스를 순위 매기는 랭킹 엔진(152)(혹은 기타 소프트웨어)을 포함할 것이다. 검색 엔진(130)은 이용자(102)에의 제공을 위하여 클라이언트 장치(104)에 네트워크를 통하여 검색 결과(128)를 전송할 수 있다.
일부 시나리오의 경우, 쿼리는 음역된 용어인 하나 이상의 용어를 포함한다. 음역은 소스 언어의 용어를 타겟 언어의 음역된 용어로 변환한다. 변환 이후, 소스 언어에 있어서 해당 용어의 문자나 기호는 타겟 언어의 문자나 기호에 의해 나타내어진다. 음역을 위한 기계 학습 기술은 예컨대 2008년 3월 6일자로 제출된 "음역을 위한 기계 학습"이라는 제목의 미국특허출원 제12/043,854호에 개시되어 있다.
한 언어로부터 다른 언어로 음역된 용어는 인터넷 리소스에서 사용될 수 있다. 예컨대, 힌디어, 타밀어, 텔루구어, 칸나다어, 말라얄람어와 같은 인도어는 때때로 인터넷 리소스(예컨대, 인도 사람의 블로그나 전자적인 인도 기술 교과서) 상에서 영어로 음역된다. 이들 언어는, 일부 비 인도 언어(예컨대, 중국어와 기타 표어 문자 체계)와 함께, 잘 구현된 선택적인 입력 메커니즘을 가지고 있지 않아 종종 이들 언어로 문자를 입력하는 것이 귀찮다.
음역은 정확한 스펠링(Spelling)의 의미를 갖는 것이 아니다. 결과적으로, 보통 소스 언어인 단어의 음역에 대해서는 타겟 언어로 복수의 스펠링이 존재한다. 타겟 언어에서 복수의 음역을 갖는 소스 언어의 특정 용어의 경우, 타겟 언어에서의 주어진 음역어로부터 변하는 타겟 언어에서의 음역어는 그 주어진 음역어의 후 보 동의어로서 취급될 수 있다. 이들 후보 음역 동의어는 소스 언어에서의 동일한 용어에 대한 서로 다른 가능한 음역들이다.
예컨대, 힌디어 단어인
Figure 112009044082809-PAT00001
는 영어로 "chakrabarti" 혹은 "chakrabarty"로 음역될 수 있다. 따라서, 음역어 "chakrabarty"는 주어진 음역어 "chakrabarti"의 후보 동의어로서 확인될 수 있다.
주어진 음역어에 대하여 확인된 후보 동의어는 그 주어진 음역어를 포함하는 쿼리를 확장하는데 사용 가능하다. 예컨대, 인터넷 상의 여러 웹사이트에서 이용 가능한 인기 있는 힌디어 신곡이 있는 경우, 만약 이용자가 동일한 힌디어 단어에 대한 제 2 음역어를 갖는 쿼리를 입력하는 동안 해당 웹사이트가 노래 제목의 힌디어 단어를 제 1 음역어로 음역한다면, 이용자는 해당 곡을 찾기 어려울 수 있다. 제 2 음역어에 대한 후보 음역 동의어를 포함하도록 이용자의 쿼리를 확장할 수 있는 검색 시스템은 그와 같은 쿼리 확장 기능을 갖지 않는 검색 시스템보다 더 나은 검색 결과를 회신할 수 있다.
도 2a 내지 도 2c는 음역어에 대한 후보 동의어를 확인하기 위한 예시적인 기술을 나타낸다. 편의상 본 예시적인 기술은 그 기술을 수행하는 시스템을 참조하여 설명할 것이다. 본 예시적인 기술은 쿼리에 대하여 회신된 검색 결과를 개선하려는 시도에 있어서 음역어의 동의어를 포함하도록 해당 음역어를 포함하는 쿼리를 확장하는데 사용 가능하다. 본 예시적인 기술은 소스 언어(예컨대, 힌디어)에서의 동일한 용어로부터 타겟 언어(예컨대, 영어)에서 어떤 용어가 음역되는지를 결정하기 위한 음역 기술을 이용한다. 후보 동의어의 정밀도나 질을 개선하기 위하여 몇 가지 기술이 구현될 수 있다.
도 2a는 타겟 언어인 영어에서 가능한 음역어의 리스트(210)를 나타내며, 여기서 소스 언어는 힌디어이다. 시스템은 어떤 수의 서로 다른 방법으로도 가능한 음역어의 리스트(210)를 생성하거나 확인할 수 있다.
예컨대, 본 시스템은 웹 리소스로부터의 리스트(210)의 가능한 음역어들을 타겟 언어의 문자(예컨대, 라틴 문자)만을 포함하는 용어로서 확인할 수 있다. 타겟 언어의 문자만을 포함하는 이 확인된 용어는 타겟 언어에서의 의미를 갖는 단어와 타겟 언어에서의 의미 없이 가능한 음역어를 포함하고 있다.
비 음역어(예컨대, 의미를 갖는 단어)로부터의 가능한 음역어들을 분리하기 위하여, 본 시스템은 타겟 언어의 문자만을 포함하는 확인된 용어에 대한 통계치를 연산하고, 그 통계치를 특정 임계값에 비교할 수 있다. 즉, 각각의 확인된 용어에 대하여, 통계치를 연산하여 임계값에 비교하며, 여기서 본 시스템은 만약 그 확인된 용어에 대한 통계치가 특정 임계값을 초과한다면 가능한 음역어의 리스트(210)에서 해당 확인된 용어를 포함하고 있다.
영어가 타겟 언어이고 힌디어가 소스 언어인 일 예에서, 영어의 음역어는 비 인도 웹 사이트보다 인도 웹 사이트 상에서 발생할 확률이 더 높을 수 있다. 이 예의 경우, 라틴 문자만을 포함하는 것으로 확인된 각 용어에 대한 통계치는 인도 웹 리소스 상에서의 발생 확률의 함수일 수 있다.
일부 구현예의 경우, 각각의 확인된 용어에 대한 통계치는 어떤 장소라도 연계된 최상위 도메인의 웹 리소스에서 상기 확인 용어가 발생할 확률에 대한 상기 소스 언어가 말하여지는 하나 이상의 장소(예컨대, 국가나 지방)와 연계된 최상위 도메인의 웹 리소스에서 상기 확인 용어가 발생할 확률의 비이다. 예컨대, 통계치는 어떤 웹 페이지 상에서도 발생하는 확인 용어의 확률에 대한 인도 웹 페이지 상에서 발생할 확인 용어의 확률의 비일 수 있다. 만약 특정한 확인 용어에 대해 연산된 통계치가 특정 임계값을 초과한다면, 그 특정한 확인 용어는 가능한 음역어의 리스트(210)에 포함될 수 있다.
일부 다른 구현예의 경우, 각 확인 용어에 대한 통계치는 상기 각 확인 용어에 대한 상기 통계치는, 어떤 장소라도 연계된 웹 리소스에서 상기 확인 용어가 발생할 확률에 대한 상기 소스 언어가 말하여지는 하나 이상의 장소(예컨대, 국가나 지방)와 연계된 웹 리소스에서 상기 확인 용어가 발생할 확률의 비이다. 상기 소스 언어가 말하여지는 장소와 웹 리소스의 연계는 상기 웹 리소스의 최상위 도메인에 의해 결정될 수 있다. 예컨대, 이 통계치는 어떤 웹 도메인 상에서도 발생하는 확인 용어의 확률에 대한 인도 웹 도메인 상에서 발생하는 확인 용어의 확률의 비일 수 있다. 특정한 확인 용어에 대해 연산된 통계치가 특정 임계값을 초과한다면, 그 특정한 확인 용어는 가능한 음역어의 리스트(210)에 포함될 수 있다.
일부 시나리오의 경우, 특정한 웹 페이지나 특정한 웹 도메인이 특정한 확인 용어를 예외적으로 많은 횟수로 사용할 수 있으며, 이는 해당 특정한 확인 용어에 대한 통계치를 왜곡할 수 있다. 일부 구현에서는, 본 시스템은 통계치의 왜곡을 방지하기 위하여 소정의 한계치에서 각 확인된 용어에 대한 통계치 혹은 각 확인된 용어에 대한 통계치의 컴포넌트를 상한 짓는다. 예컨대, 본 시스템은 인도 도메인 상에서 확인된 용어의 도메인 당 기여분이나 인도 웹 페이지 상에서 확인된 용어의 페이지 당 기여분의 상한을 정할 수 있다.
일부 구현예의 경우, 각각의 확인된 용어에 대한 통계치는 어떤 언어에서라도 인터페이스를 갖는 검색 엔진에 제시된 쿼리에 포함되어 있는 확인 용어의 확률에 대한 소스 언어에서 인터페이스를 갖는 검색 엔진에 제시된 쿼리에 포함되어 있는 확인 용어의 확률의 비이다. 예컨대, 본 시스템은 인도 및 비 인도 검색 로그를 사용하여 통계치를 연산할 수 있다.
일부 구현예의 경우, 비 음역어(예컨대, 타겟 언어에서의 의미를 갖는 단어)와 가능한 음역어를 분리하기 위하여, 본 시스템은 타겟 언어의 문자만을 포함하는 각각의 확인 용어에 대한 복수의 통계치를 연산하고, 이 복수의 통계치를 각각의 임계값에 비교한다. 만약 특정한 확인 용어에 대한 복수의 통계치 각각이 각 임계값을 초과한다면, 본 시스템은 가능한 음역어의 리스트(210)에 그 특정한 확인 용어를 포함시킬 수 있다.
선택적으로, 리스트(210)의 가능한 음역어는 소스 언어와 연계된 알려진 웹 리소스만을 크롤링(Crawling)함으로써 확인될 수 있다. 소스 언어가 힌디어인 예의 경우, 본 시스템은 알려진 인도 웹 사이트, 예컨대 힌디어 노래나 힌디어 기술 교재를 음역해 주는 인도 블로그 사이트나 웹 사이트를 크롤링함으로써 가능한 음역어를 확인할 수 있다.
도 2b는 리스트(210)의 각 가능한 음역어와 소스 언어인 힌디어에서의 하나 이상의 용어(220) 간의 관계(215)를 나타낸다. 각각의 관계(215)는 제 1 그룹의 요 소(즉, 타겟 언어에서의 가능한 음역어)를 제 2 그룹의 하나 이상의 요소(즉, 소스 언어에서의 용어(220))에 매핑한 결과이다. 즉, 매핑은 타겟 언어에서의 가능한 음역어와 소스 언어에서의 하나 이상의 용어(220) 간에 일방적 관계를 형성한다. 도 2b의 예시적인 기술에서, 관계(215)는 예컨대 본 시스템의 요소로서 구현된 영어-힌디어 기계 번역기에 의해 수행된 음역에 의한 매핑의 결과이다.
일부 구현예의 경우, 매핑은 소스 언어에서의 용어(220)에 대한 타겟 언어에서의 가능한 음역어로부터의 각 음역에 대한 음역 점수(225)를 생성하는 것을 포함한다. 예컨대, 도 2b는 "sreeram"으로부터 H2까지의 점수(예컨대, scoreE1 to H2), "shriram"으로부터 H2까지의 점수(예컨대, scoreE3 to H2) 및 "shreeram"에서 H6까지의 점수(예컨대, scoreE4 to H6)를 포함하여, 각 음역에 대한 음역 점수(225)를 나타낸다.
만약 음역 점수(225)가 매핑에 의해 생성되면, 리스트(210)의 주어진 가능한 음역어의 음역 점수(225)는 다른 가능한 음역어에 대한 주어진 가능한 음역어의 신뢰값의 컴포넌트일 수 있다. 본 시스템은 특정한 음역어에 대한 후보 동의어로서 여겨져야 하는 가능한 음역어를 확인하는데 있어서 이러한 신뢰값을 사용할 수 있다. 음역 점수(225)와 신뢰값은 도 2c를 참조하여 더 자세하게 설명한다.
도 2c는, 제 1 가능한 음역어(230)에 대하여, 제 1 가능한 음역어(230)의 후보 동의어로서 하나 이상의 제 2 가능한 음역어(240)를 확인하는 것을 나타낸다.
만약 음역기가 타겟 언어에서의 2 이상의 가능한 음역어로부터 소스 언어에 서의 용어(220)를 매핑한다면, 이는 타겟 언어에서의 2 이상의 가능한 음역어들 간 동의어 관계를 제안하는 것이다. 예컨대, H2는 3개의 가능한 음역어 "sreeram", "shriram" 및 "shreeram"으로부터 음역기에 의하여 매핑된 소스 언어에서의 힌디어 단어이며, 이 3개의 음역어가 동의어임을 나타낸다.
도 2c의 예시적인 기술에서, 본 시스템은 제 1 가능한 음역어(230)로부터도 매핑되는 소스 언어에서의 적어도 하나의 용어(220)에 매핑되는 리스트(210)의 가능한 음역어를 확인함으로써 제 1 가능한 음역어(230)의 후보 동의어로서 제 2 가능한 음역어(240)를 확인한다. 소스 언어에서 용어(220)의 교집합은 음역된 동의어에 대한 후보 그룹을 제공한다. 음역된 동의어에 대한 후보 그룹의 신뢰성을 높이기 위해 몇 가지 기술이 구현될 수 있다.
일부 구현에서, 제 1 음역어(230) 이외에 리스트(210)의 가능한 음역어 각각은 제 1 가능한 음역어(230)에 관하여 신뢰값을 갖는다. 이들 구현에서, 특정한 가능한 음역어가 특정 임계값을 초과하는 제 1 가능한 음역어(230)에 관하여 신뢰값을 가진다면, 특정한 가능한 음역어는 제 1 가능한 음역어(230)의 후보 동의어로서 확인되는 제 2 가능한 음역어(240)이다. 만약 매핑이 각각의 음역에 대하여 음역 점수(225)를 생성하지 않는다면, 주어진 제 2 가능한 음역어(240)에 대한 신뢰값은 주어진 제 2 가능한 음역어(240)와 제 1 가능한 음역어(230) 양자로부터 매핑되는 소스 언어에서의 용어(220)의 수에 관한 함수일 수 있다.
예컨대, "shriram" 및 "sriraam" 각각은 제 1 가능한 음역어(230)인 "sreeram"으로부터도 매핑되는 하나의 용어(220)(즉, H2 및 H6 각각)에만 매핑된 다. 음역어 "shreeram"은 제 1 가능한 음역어(230)인 "sreeram"으로부터도 매핑되는 2개의 용어(220)(즉, H2 및 H6)에 매핑된다. 소스 언어에서 매핑된 용어(220)의 "sreeram"과의 중첩은 "shriram" 및 " sriraam"의 경우보다 "shreeram"에 대해서 더 크고, 이는 "shreeram"이 "shriram"이나 "sriraam" 중 어느 하나보다 "sreeram"에 대한 더 신뢰성 있는 후보 동의어일 수 있다는 점을 나타낸다. 이렇게 개선된 신뢰성은 "sreeram"에 관하여 "shreeram"에 대한 더 높은 신뢰값에서 반영될 수 있다.
만약 매핑이 각 음역에 대하여 음역 점수(225)를 생성한다면, 주어진 제 2 가능한 음역어(240)에 대한 신뢰값은 주어진 제 2 가능한 음역어(240) 및 제 1 가능한 음역어(230)의 음역 점수(225)의 함수일 수 있다. 예컨대, 제 1 가능한 음역어(230)인 "sreeram"에 관하여 제 2 가능한 음역어(240)인 "shriram"에 대한 신뢰값은 음역 점수(225) scoreE1 to H2 및 scoreE3 to H2의 함수일 수 있으며, 2개의 음역어는 모두 H2에 매핑된다.
일부 구현의 경우, 주어진 제 2 가능한 음역어(240)에 대한 신뢰값은 웹 리소스에서 주어진 제 2 가능한 음역어(240)의 발생 확률의 함수이다. 예컨대, 발생 확률은 주어진 제 2 가능한 음역어(240)의 웹 리소스에서의 도메인 당 기여분 혹은 웹 리소스에서의 페이지 당 기여분일 수 있다. 일반적으로, 더 높은 발생 확률은 주어진 제 2 가능한 음역어(240)가 소스 언어에서의 용어로부터의 더욱 보편적인 음역 형태라는 점을 나타낸다. 더 높은 확률은 보편적인 음역어에 있어서 더 높은 신뢰도를 나타내며, 이는 해당 음역어에 대한 더 높은 신뢰값에 반영될 수 있다.
일부 구현에서, 주어진 제 2 가능한 음역어(240)에 대한 신뢰값은 예컨대 음역 점수(225)와 발생 확률과 같은 복수의 컴포넌트에 대한 함수이다. 비록 도 2c가 제 2 가능한 음역어(240)로서 제 1 가능한 음역어(230)로부터도 매핑되는 소스 언어에서의 용어(220)에 매핑되는 모든 가능한 음역어를 포함하고 있지만, 후보 그룹의 신뢰성을 높이기 위한 상술한 기술 중 어떤 구현이라도 도 2c에 기술된 제 2 가능한 음역어(240)의 하위 그룹으로 후보 동의어의 그룹을 감축할 수 있다.
일부 구현에서는, 본 시스템은 제 2 가능한 음역어(240)에 부가하여, 혹은 그 대신에 제 1 가능한 음역어(230)의 후보 동의어로서 제 2 가능한 음역어(240) 중 적어도 하나와 제 1 가능한 음역어(230)로부터 매핑되는 소스 언어에서의 용어(220) 중 하나 이상을 확인한다. 예컨대, 제 1 가능한 음역어(230) "sreeram"의 경우, 본 시스템은 "sreeram"의 후보 동의어로서 용어 H2와 H6을 확인할 수 있다. 일부 구현의 경우, 본 시스템은 후보 동의어 그룹으로서 타겟 언어에서의 동일한 음역어로부터 매핑되는 소스 언어에서의 용어(220)를 확인한다. 도 2c의 예의 경우, 본 시스템은 후보 동의어 그룹으로서 동일한 음역어 "sreeram" 및 "shreeram"으로부터 매핑된 용어 H2와 H6를 확인할 수 있다.
본 시스템은 쿼리 확장을 위하여 후보 음역 동의어(즉, 제 2 가능한 음역어(240))를 사용할 수 있다. 예컨대, 검색 시스템(예컨대, 도 1의 검색 시스템(114))이 제 1 가능한 음역어(230)를 포함하는 쿼리를 수신하는 경우, 본 검색 시스템은 제 1 가능한 음역어(230)의 하나 이상의 후보 음역 동의어를 확인할 수 있다. 제 1 가능한 음역어(230)의 확인된 후보 음역 동의어 중 하나 이상으로 쿼리를 확장할 수 있다. 도 2c의 예에서, 본 시스템은 "shriram", "shreeram" 및 "sriraam" 중 하나 이상을 포함하도록 "sreeram"을 포함하는 쿼리를 확장할 수 있다. 일부 구현에서, 본 시스템은 신뢰값에 의하여 후보 동의어를 순위 매기고, 본 시스템은 확장형 쿼리에 포함시키기 위하여 N개의 가장 높은 신뢰값을 갖는 N개의 후보 동의어만을 선택한다. 본 시스템은 검색 엔진(예컨대, 도 1의 검색 엔진(130))에 확장된 쿼리를 제공하며, 확장된 쿼리에 대한 검색 결과를 수신한다.
일부 구현에서, 만약 본 시스템이 주어진 음역어에 대한 후보 음역 동의어로서 가능한 음역어를 선택한다면, 본 시스템은 가능한 음역어에 대한 후보 음역 동의어로서 주어진 음역어도 선택한다. 일부 구현에서, 만약 본 시스템이 주어진 음역어에 대한 후보 음역 동의어로서 가능한 음역어를 선택한다면, 본 시스템은 가능한 음역어에 대한 후보 음역 동의어로서 주어진 음역어를 선택하지 않는다. 즉, 음역 동의어의 리버스 매핑(Reverse Mapping)이 있을 수도, 있지 않을 수도 있다. 예컨대, 만약 제 1 음역어 "a"가 거의 사용되지 않고 제 2 음역어 "b"가 자주 사용된다면, "b"로 "a"의 쿼리를 확장하는 것은 일반적으로 이치에 맞는데, 왜냐하면 확장이 회신되는 더 많은 검색 결과를 가져올 것이기 때문이다. 그러나, "a"로 "b"의 쿼리를 자동 확장하는 것은 이치에 맞지 않을 수 있는데, 이는 해당 확장이 관련성이 없는 검색 결과를 회신할 수 있기 때문이다.
일부 구현에서, 하나 이상의 후보 음역 동의어로 쿼리를 확장하는 것 대신에, 쿼리 검색의 문서측 상에서 주어진 음역어에 후보 음역 동의어를 매핑하는 것 이 발생한다. 상술한 예의 경우, 만약 이용자가 음역어 "a"가 아닌 "b"라는 음역어를 포함하는 쿼리를 제시하고, 웹 문서는 "b"가 아니라 "a"를 포함한다면, 본 검색 시스템(예컨대, 도 1의 검색 시스템(114))은 해당 웹 문서가 "b"를 포함하는 검색에 대한 후보 검색 결과가 되도록 마치 해당 웹 문서가 "b"도 포함하는 것처럼 웹 문서를 취급할 수 있다. 그러나, 그 웹 문서는 실제로는 "b"를 포함하지 않으므로, 본 검색 시스템은 해당 웹 문서와 관련된 점수(예컨대, 후보 검색 결과로서 해당 웹 문서를 순위 매기기 위한 정보 검색 점수)를 줄일 수 있으며, 이는 결과적으로 검색에 대해 해당 웹 문서가 회신될 확률을 줄일 수 있다.
일부 구현에서, 후보 동의어의 문서 레벨 매핑은 소스 언어에서 하나 이상의 용어(220)를 포함한다. 도 2c의 예에서, 본 검색 시스템은 마치 웹 문서가 힌디어 단어 H2 혹은 H6를 포함하는 것처럼 "sreeram"을 포함하는 웹 문서를 취급할 수 있다. 또한, 본 검색 시스템은 그에 따라 해당 웹 문서와 연계된 점수를 줄일 수도 있다.
도 3은 음역어에 대한 후보 동의어를 확인하기 위한 예시적인 프로세스(300)의 순서도이다. 편의상 본 예시적인 프로세스(300)는 도 2a 내지 도 2c의 예시적인 기술과 본 프로세스(300)를 수행하는 시스템을 참조하여 설명될 것이다.
본 시스템은 타겟 언어에서 복수의 음역어를 확인한다(스텝 310). 예컨대, 본 시스템은 도 2a의 리스트(210)의 가능한 음역어들을 확인한다.
타겟 언어에서의 복수의 음역어 중 각각의 음역어에 대하여, 본 시스템은 소스 언어에서 하나 이상의 용어에 상기 음역어를 매핑한다(스텝 320). 도 2b는 영어 -힌디어 번역기를 이용한 매핑의 예를 나타낸다.
타겟 언어에서의 복수의 음역어 중 각각의 음역어에 대하여, 본 시스템은 제 1 음역어의 후보 동의어로서 상기 복수의 음역어 중 하나 이상의 제 2 음역어를 확인한다(스텝 330). 하나 이상의 제 2 음역어 각각은 제 1 음역어로부터도 매핑되는 소스 언어에서의 적어도 하나의 용어에 매핑된다. 예컨대, 도 2c는 제 1 가능한 음역어(230)(즉, "sreeram")의 후보 동의어로서 확인된 제 2 가능한 음역어(240)(즉, "shriram", "shreeram" 및 "sriraam")를 나타낸다. 이 후보 동의어는 예컨대 도 4를 참조하여 설명한 바와 같이 쿼리 확장을 위해 사용될 수 있다.
도 4는 후보 동의어와 음역어를 포함하는 확장형 쿼리에 대한 검색 결과를 제공하기 위한 예시적인 프로세스(400)의 순서도이다. 편의상 본 예시적인 프로세스(400)는 도 2a 내지 도 2c의 예시적인 기술과 본 프로세스(400)를 수행하는 시스템을 참조하여 설명될 것이다.
본 시스템은 제 1 음역어를 포함하는 쿼리를 수신한다(스텝 410). 예컨대, 쿼리는 도 2c에 도시된 "sreeram"이라는 음역어를 포함할 수 있다.
본 시스템은 이용자의 선택을 위하여 하나 이상의 확장형 쿼리를 제공하는데, 여기서 각각의 확장형 쿼리는 제 1 음역어의 하나 이상의 후보 동의어와 쿼리를 포함한다(스텝 420). 후보 동의어는 예컨대 도 3의 예시적인 프로세스(300)를 사용하여 확인될 수 있다. "sreeram"이라는 음역어를 포함하는 쿼리에 대하여, 본 시스템은 도 2c에 나타낸 바와 같이 "shriram", "shreeram" 및 "sriraam" 중 하나 이상을 역시 포함하는 확장형 쿼리를 제공할 수 있다.
본 시스템은 이용자로부터 확장형 쿼리의 선택을 수신한다(스텝 430). 예컨대, 확장형 쿼리는 클라이언트 장치(예컨대, 도 1의 클라이언트 장치(104)) 상에서 구동하는 웹 브라우저의 인터페이스 상에서 선택 가능한 하이퍼링크로서 해당 이용자에게 제공될 수 있다. 본 시스템은 선택된 확장형 쿼리에 대한 하이퍼링크의 사용에 의한 선택으로서 확장형 쿼리의 선택을 수신할 수 있다. 일부 구현의 경우, 본 시스템은 하나 이상의 후보 동의어로 확장형 쿼리를 생성하고, 스텝 420 및 430을 수행하지 않고 스텝 440으로 진행한다.
본 시스템은 검색 엔진에 확장형 쿼리를 제공한다(스텝 440). 예컨대, 본 시스템은 도 1의 검색 엔진(130)에 상기 확장형 쿼리를 제시할 수 있다. 검색 엔진은 본 시스템에 확장형 쿼리에 대한 검색 결과를 전송하면서 검색을 수행한다. 본 시스템은 확장형 쿼리에 대한 검색 결과를 수신한다(스텝 450).
일부 구현에서, 본 시스템은 쿼리를 확장하지 않고 검색 엔진에 스텝 410의 수신된 쿼리를 제공한다. 그 대신에, 본 시스템은 도 2c를 참조하여 설명한 바와 같이 문서 레벨 매핑을 수행한다. 예컨대, 본 검색 엔진은 제 1 음역어의 후보 동의어 중 적어도 하나를 포함하지만 쿼리에 어떤 용어(예컨대, 제 1 음역어)도 포함하지는 않는 웹 리소스를 해당 쿼리에 대한 가능한 검색 결과로서 확인할 수 있다. 선택적으로는, 검색 엔진은 쿼리에 어떤 용어(예컨대, 제 1 음역어)도 포함하지 않지만 제 1 음역어 및 적어도 하나의 후보 동의어로부터 매핑되는 소스 언어에서의 용어 중 적어도 하나를 포함하는 웹 리소스를 해당 쿼리에 대한 가능한 검색 결과로서 확인할 수 있다. 문서 레벨 매핑이 구현되는 경우, 본 시스템은 가능한 검색 결과로서 확인된 웹 리소스와 연계되는 랭킹에 사용하기 위한 점수를 수정(예컨대, 감소)할 수 있다.
도 5는 음역어에 대한 후보 동의어를 확인하기 위한 예시적인 프로세스(500)의 순서도이다. 편의상 본 예시적인 프로세스(500)는 본 프로세스(500)를 수행하는 시스템을 참조하여 설명될 것이다. 일반적으로 본 프로세스(500)는 타겟 언어에서의 음역어에 대한 스펠링에 있어서 가능한 편차를 직접 학습한다. 음역된 동의어가 일반적으로 발음 표기 상으로는 유사하므로, 음역된 동의어들 간의 편차는 언어 특정적이다.
본 시스템은 타겟 언어에서의 가능한 음역 동의어의 트레이닝 그룹을 생성한다(스텝 510). 본 시스템은 타겟 언어에서의 음역 동의어에 있어서 스펠링 편차의 확률을 학습하기 위해 트레이닝 그룹을 사용하여 확률 모델을 트레이닝한다(스텝 520). 본 시스템은 특정한 음역어(스텝 530)의 하나 이상의 후보 동의어를 확인하기 위하여 타겟 언어에서의 특정한 음역어에 상기 확률 모델을 적용한다(스텝 530). 본 시스템은 상술한 바와 같이 쿼리 확장을 위해 상기 후보 동의어를 사용할 수 있다.
본 명세서에서 설명한 기능적인 동작과 주제의 실시형태는, 본 명세서에 개시된 구조와 그 구조적인 등가물을 포함하여 디지털 전자 회로, 컴퓨터 소프트웨어, 펌웨어 또는 하드웨어로, 혹은 이들 중 하나 이상의 조합으로 구현 가능하다. 본 명세서에서 설명한 주제의 실시형태는 하나 이상의 컴퓨터 프로그램 제품, 즉 데이터 처리 장치의 동작을 제어하거나 이것에 의해 실행되기 위하여 실체적 인(Tangible) 프로그램 매체 상에 인코딩된 컴퓨터 프로그램 명령으로 된 하나 이상의 모듈로서 구현 가능하다. 실체적인 프로그램 매체는 전파형 신호나 컴퓨터로 판독 가능한 매체일 수 있다. 전파형 신호는 인공적으로 생성된 신호, 예컨대 기계 생성된 전기적, 광학적 혹은 전자기적 신호로서, 이는 컴퓨터에 의한 실행을 위해 적절한 수신기 장치로의 전송을 위한 정보를 인코딩하도록 생성된다. 컴퓨터로 판독 가능한 매체는 기계로 판독 가능한 저장 장치, 기계로 판독 가능한 저장 기판, 메모리 장치, 기계로 판독 가능한 전파형 신호에 영향을 미치는 물질의 조성물 혹은 이들 중 하나 이상의 조합일 수 있다.
"데이터 처리 장치"라는 용어는 예컨대 프로그래머블 프로세서, 컴퓨터 혹은 다중 프로세서나 컴퓨터를 포함하여 데이터를 처리하기 위한 모든 장치, 기구 및 기계를 포괄한다. 본 장치는 하드웨어 외에도, 예컨대 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영체제 혹은 이들 중 하나 이상의 조합을 구성하는 코드와 같이, 요청 시 컴퓨터 프로그램에 대한 실행 환경을 형성하는 코드를 포함할 수 있다.
컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 어플리케이션, 스크립트 혹은 코드라고도 함)은 컴파일되거나 해석된 언어, 선언형 언어나 절차적 언어를 포함하는 모든 형태의 프로그래밍 언어로 작성 가능하며, 독립형 프로그램이나 모듈, 컴포넌트, 서브루틴 혹은 컴퓨터 환경에서 사용하기에 적합한 기타의 유닛을 포함하여 어떠한 형태로도 전개될 수 있다. 컴퓨터 프로그램이 파일 시스템의 파일에 반드시 대응해야 하는 것은 아니다. 프로그램은 요청된 프로그램에 제공되는 단 일 파일 내에, 혹은 다중의 상호 작용하는 파일(예컨대, 하나 이상의 모듈, 하위 프로그램 혹은 코드의 일부를 저장하는 파일) 내에, 혹은 다른 프로그램이나 데이터를 보유하는 파일의 일부(예컨대, 마크업 언어 문서 내에 저장되는 하나 이상의 스크립트) 내에 저장될 수 있다. 컴퓨터 프로그램은 하나의 사이트에 위치하거나 복수의 사이트에 걸쳐서 분산되어 통신 네트워크에 의해 상호 접속된 다중 컴퓨터나 단일 컴퓨터 상에서 실행되도록 전개될 수 있다.
본 명세서에서 설명한 프로세스와 논리 흐름은 입력 데이터 상에서 동작하고 출력을 생성함으로써 기능을 수행하기 위한 하나 이상의 프로그램을 실행하는 하나 이상의 프로그래머블 프로세서에 의해 수행 가능하다. 본 프로세스와 논리 흐름은 예컨대 FPGA(Field Programmable Gate Array)나 ASIC(Application-Specific Integrated Circuit)과 같은 특수 목적의 논리 회로에 의해 수행될 수도 있으며, 장치는 이러한 것으로서 구현될 수도 있다.
컴퓨터 프로그램의 실행에 적합한 프로세서는, 예컨대 범용 및 특수 목적의 마이크로프로세서 양쪽 및 어떤 종류의 디지털 컴퓨터의 어떠한 하나 이상의 프로세서라도 포함한다. 일반적으로, 프로세서는 읽기 전용 메모리나 랜덤 액세스 메모리 혹은 양자로부터 명령과 데이터를 수신할 것이다. 컴퓨터의 핵심적인 요소는 명령과 데이터를 저장하기 위한 하나 이상의 메모리 장치 및 명령을 수행하기 위한 프로세서이다. 또한, 컴퓨터는 일반적으로 예컨대 자기, 자기광학 디스크나 광학 디스크와 같은 데이터를 저장하기 위한 하나 이상의 대량 저장 장치로부터 데이터를 수신하거나 그것으로 데이터를 전송하거나 혹은 그러한 동작 둘 다를 수행하도 록 동작 가능하게 결합되거나 포함할 것이다. 그러나, 컴퓨터가 이러한 장치들을 구비해야 하는 것은 아니다. 나아가 컴퓨터는, 몇 가지만 언급하자면, 예컨대 이동전화, PDA, 모바일 오디오 혹은 비디오 플레이어, 게임 콘솔, GPS 수신기, 구어 입력부를 갖는 장치와 같은 다른 장치에서 구체화될 수 있다. 스마트폰은 구어 입력부를 갖는 장치의 예이며, 이는 음성 입력(예컨대, 해당 장치 상의 마이크로폰으로 말하여지는 이용자 쿼리)을 받아들일 수 있다.
컴퓨터 프로그램 명령과 데이터를 저장하기에 적합한 컴퓨터로 판독 가능한 매체는 예컨대 EPROM, EEPROM 및 플래시메모리 장치와 같은 반도체 메모리 장치, 예컨대 내부 하드디스크나 외장형 디스크와 같은 자기 디스크, 자기광학 디스크 및 CD-ROM과 DVD-ROM 디스크를 포함하여 모든 형태의 비휘발성 메모리, 매체 및 메모리 장치를 포함한다. 프로세서와 메모리는 특수 목적의 논리 회로에 의해 보완되거나, 그것에 통합될 수 있다.
이용자와의 상호 작용을 제공하기 위하여, 본 명세서에서 설명한 주제의 실시형태는 이용자에게 정보를 디스플레이하기 위하여 예컨대 CRT나 LCD 모니터와 같은 디스플레이 장치를 구비하고, 이용자가 컴퓨터에 입력을 제공할 수 있는 예컨대 마우스나 트랙볼(Trackball)과 같은 지시 장치 및 키보드를 구비하는 컴퓨터 상에서 구현될 수 있다. 물론 다른 종류의 장치도 이용자와의 상호 작용을 제공하기 위하여 사용 가능한데, 예컨대 이용자에게 제공되는 피드백은 가시적인 피드백, 가청 피드백 혹은 촉각형 피드백과 같은 감각적인 피드백의 어떠한 형태일 수도 있으며, 이용자로부터의 입력은 음향, 발성 혹은 촉각적 입력을 포함하는 어떠한 형태로도 수신 가능하다.
본 명세서에서 설명한 주제의 실시형태는 예컨대 데이터 서버와 같은 백엔드(Back-end) 컴포넌트를 포함하거나, 예컨대 어플리케이션 서버와 같은 미들웨어(Middleware) 컴포넌트를 포함하거나, 예컨대 이용자가 본 명세서에서 설명한 주제의 구현물과 상호 작용할 수 있는 웹 브라우저나 그래픽 유저 인터페이스를 갖는 클라이언트 컴퓨터와 같은 프론트엔드(Front-end) 컴포넌트 혹은 그러한 백엔드, 미들웨어 혹은 프론트엔드 컴포넌트 중 하나 이상의 어떠한 조합이라도 포함하는 연산 시스템에서 구현될 수 있다. 시스템의 컴포넌트는 예컨대 통신 네트워크와 같은 디지털 데이터 통신의 어떠한 형태나 매체에 의해서도 상호 접속 가능하다. 통신 네트워크의 예로는 LAN(Local Area Network) 및 예컨대 인터넷과 같은 WAN(Wide Area Network)이 포함된다.
연산 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 보통 서로 떨어져 있으며, 일반적으로는 통신 네트워크를 통하여 상호 작용한다. 클라이언트와 서버의 관계는 각각의 컴퓨터 상에서 구동되고 서로에 대하여 클라이언트-서버 관계를 갖는 컴퓨터 프로그램에 의하여 발생한다.
본 명세서가 다수의 세부사항들을 포함하고 있지만, 이는 청구 가능한 것 혹은 본 발명의 범위에 대한 제한으로서 이해되어서는 안되며, 특정 발명의 특정한 구현예에 특유한 특징일 수 있는 구성요소의 설명으로서 이해되어야 한다. 별개의 실시형태의 문맥으로 본 명세서에서 설명한 특정한 특징들은 단일 실시형태로 조합해서 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 설명한 다양한 특징들 은 복수의 실시형태에서 별개로 구현되거나 적당한 하위 조합으로 구현될 수도 있다. 나아가, 특정 조합에서 동작하는 것으로서 특징들을 설명하고 그와 같이 초기에 청구할 수도 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 해당 조합으로부터 삭제될 수 있으며, 청구된 조합은 하위 조합이나 하위 조합의 변형으로 될 수 있다.
마찬가지로, 도면에서 특정한 순서로 동작을 묘사하고 있지만, 이는 나타낸 특정 순서나 순차적인 순서로 그러한 동작들이 수행되어야 한다거나, 바람직한 결과를 얻기 위하여 설명한 모든 동작들이 수행되어야 한다는 식으로 이해해서는 안된다. 특정한 경우, 멀티태스킹 및 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태에 있어서 다양한 시스템 컴포넌트의 분리가 모든 실시형태에서 그러한 분리를 요구하는 식으로 이해되어서는 안 되며, 일반적으로 설명한 프로그램 컴포넌트 및 시스템은 복수의 소프트웨어 제품에 패키징되거나 단일 소프트웨어 제품에 함께 공통적으로 통합될 수 있다는 점을 이해해야 한다.
본 명세서에서 설명한 주제의 특정한 실시형태를 설명하였다. 기타의 실시행태는 다음의 청구항의 범위 내에 존재한다. 예컨대, 청구항에서 인용한 동작을 다른 순서로 수행하여도 여전히 바람직한 결과를 달성할 수 있다. 일 예로서, 첨부도면에 묘사된 프로세스는 바람직한 결과를 얻기 위하여 나타낸 특정한 순서나 순차적인 순서를 반드시 요구하는 것은 아니다. 특정한 구현예의 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다.
도 1은 예시적인 검색 시스템의 블록도.
도 2a 내지 도 2c는 음역된 용어에 대한 후보 동의어를 확인하기 위한 예시적인 기술을 나타내는 도면.
도 3은 음역된 용어에 대한 후보 동의어를 확인하기 위한 예시적인 프로세스의 순서도.
도 4는 음역된 용어와 후보 동의어를 포함하는 확장형 쿼리에 대한 검색 결과를 제공하기 위한 예시적인 프로세스의 순서도.
도 5는 음역된 용어에 대한 후보 동의어를 확인하기 위한 예시적인 프로세스의 순서도.

Claims (20)

  1. 컴퓨터로 구현되는 방법에 있어서,
    하나 이상의 컴퓨터를 이용하여, 타겟 언어에서의 복수의 음역어를 확인하는 단계;
    상기 타겟 언어에서의 복수의 음역어 중 각 음역어에 대하여, 소스 언어에서의 하나 이상의 용어에 상기 음역어를 매핑하는 단계; 및
    상기 타겟 언어에서의 복수의 음역어 중 제 1 음역어에 대하여, 상기 타겟 언어에서의 복수의 음역어 중 하나 이상의 제 2 음역어를 상기 제 1 음역어의 후보 동의어로서 확인하는 단계를 포함하며,
    상기 하나 이상의 제 2 음역어 각각은 상기 제 1 음역어로부터도 매핑되는 상기 소스 언어에서의 적어도 하나의 용어에 매핑되는 것을 특징으로 하는 방법.
  2. 제 1 항에 있어서,
    상기 타겟 언어에서의 복수의 음역어를 확인하는 단계는, 상기 타겟 언어의 문자만을 포함하는 용어를 웹 리소스로부터 확인하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  3. 제 2 항에 있어서,
    상기 타겟 언어의 문자만을 포함하는 각 확인 용어에 대한 통계치를 연산하 는 단계;
    상기 각 확인 용어에 대한 상기 통계치를 특정 임계값에 비교하는 단계; 및
    특유의 확인 용어에 대한 상기 통계치가 상기 특정 임계값을 초과한다면, 상기 타겟 언어에서의 복수의 음역어에 상기 특유의 확인 용어를 포함시키는 단계를 더 포함하는 것을 특징으로 하는 방법.
  4. 제 3 항에 있어서,
    상기 각 확인 용어에 대한 상기 통계치는, 상기 소스 언어가 말하여지는 하나 이상의 장소와 연계된 최상위 도메인의 웹 리소스에서 상기 확인 용어가 발생할 확률 대 어떤 장소라도 연계된 최상위 도메인의 웹 리소스에서 상기 확인 용어가 발생할 확률의 비인 것을 특징으로 하는 방법.
  5. 제 3 항에 있어서,
    상기 각 확인 용어에 대한 상기 통계치는, 상기 소스 언어가 말하여지는 하나 이상의 장소와 연계된 웹 리소스에서 상기 확인 용어가 발생할 확률 대 어떤 장소라도 연계된 웹 리소스에서 상기 확인 용어가 발생할 확률의 비인 것을 특징으로 하는 방법.
  6. 제 5 항에 있어서,
    상기 소스 언어가 사용되는 장소와 웹 리소스의 연계는 상기 웹 리소스의 최 상위 도메인에 의해 결정되는 것을 특징으로 하는 방법.
  7. 제 1 항에 있어서,
    상기 소스 언어에서의 하나 이상의 용어에 상기 음역어를 매핑하는 단계는, 상기 타겟 언어에서의 상기 음역어를 상기 소스 언어에서의 상기 하나 이상의 용어로 음역하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  8. 제 7 항에 있어서,
    상기 제 1 음역어의 후보 동의어로서 확인된 상기 하나 이상의 제 2 음역어 각각은 특정 임계값을 넘는 상기 제 1 음역어에 대하여 신뢰값을 가지는 것을 특징으로 하는 방법.
  9. 제 8 항에 있어서,
    상기 제 2 음역어의 상기 신뢰값은, 상기 제 1 음역어와 상기 제 2 음역어 양자로부터 매핑되는 상기 소스 언어에서의 용어의 수에 관한 함수인 것을 특징으로 하는 방법.
  10. 제 8 항에 있어서,
    상기 타겟 언어에서의 상기 음역어를 상기 소스 언어에서의 용어로 음역하는 단계는, 상기 타겟 언어에서의 상기 음역어의 상기 소스 언어에서 상기 용어로의 음역에 대한 음역 점수를 생성하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  11. 제 10 항에 있어서,
    상기 제 2 음역어의 상기 신뢰값은, 웹 리소스에서 상기 제 2 음역어의 발생 확률, 상기 제 2 음역어의 상기 제 1 음역어로부터도 매핑되는 상기 소스 언어에서의 용어로의 음역에 대한 상기 음역 점수, 및 상기 제 1 음역어의 상기 소스 언어에서의 용어로의 음역에 대한 상기 음역 점수 중 하나 이상의 함수인 것을 특징으로 하는 방법.
  12. 제 1 항에 있어서,
    상기 타겟 언어에서의 상기 복수의 음역어 중 상기 제 1 음역어에 대하여, 상기 제 1 음역어 및 상기 제 1 음역어의 후보 동의어로서 상기 하나 이상의 제 2 음역어 중 적어도 하나로부터 매핑되는 상기 소스 언어에서의 하나 이상의 용어를 확인하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  13. 제 1 항에 있어서,
    상기 제 1 음역어를 포함하는 쿼리를 수신하는 단계;
    상기 제 1 음역어의 상기 후보 동의어 중 하나 이상으로 상기 쿼리를 확장하는 단계;
    상기 확장된 쿼리를 검색 엔진에 제공하는 단계; 및
    상기 확장된 쿼리에 대한 검색 결과를 수신하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  14. 제 1 항에 있어서,
    상기 제 1 음역어를 포함하는 쿼리를 수신하는 단계; 및
    이용자의 선택을 위하여 하나 이상의 확장된 쿼리를 제공하는 단계를 더 포함하고,
    상기 확장된 쿼리 각각은, 상기 쿼리 및 상기 제 1 음역어의 상기 후보 동의어 중 하나 이상을 포함하는 것을 특징으로 하는 방법.
  15. 제 1 항에 있어서,
    상기 제 1 음역어를 포함하는 쿼리를 수신하는 단계;
    상기 제 1 음역어의 상기 후보 동의어 중 적어도 하나를 포함하지만 상기 쿼리의 용어는 포함하지 않는 웹 리소스를 상기 쿼리에 대한 가능한 검색 결과로서 확인하는 검색 엔진에 상기 쿼리를 제공하는 단계; 및
    상기 웹 리소스와 연계된 점수를 수정하는 단계를 더 포함하며,
    상기 점수는 상기 쿼리에 대한 가능한 검색 결과를 순위 매기는데 사용하기 위한 것임을 특징으로 하는 방법.
  16. 제 1 항에 있어서,
    상기 제 1 음역어를 포함하는 쿼리를 수신하는 단계;
    상기 제 1 음역어 및 상기 하나 이상의 제 2 음역어 중 적어도 하나로부터 매핑되는 상기 소스 언어에서의 용어 중 적어도 하나를 포함하지만 상기 쿼리에서의 용어는 포함하지 않는 웹 리소스를 상기 쿼리에 대한 가능한 검색 결과로서 확인하는 검색 엔진에 상기 쿼리를 제공하는 단계; 및
    상기 웹 리소스와 연계된 정보 검색 점수를 수정하는 단계를 더 포함하며,
    상기 정보 검색 점수는 상기 쿼리에 대한 가능한 검색 결과를 순위 매기는데 사용하기 위한 것임을 특징으로 하는 방법.
  17. 컴퓨터로 구현되는 방법에 있어서,
    하나 이상의 컴퓨터를 이용하여, 타겟 언어로 가능한 음역 동의어들의 트레이닝 그룹을 생성하는 단계;
    상기 타겟 언어에서의 음역 동의어에 있어서 스펠링 편차의 확률을 학습하기 위해 상기 트레이닝 그룹을 이용하여 확률 모델을 트레이닝하는 단계; 및
    상기 타겟 언어에서의 특유의 음역어에 상기 확률 모델을 적용하여, 상기 특유의 음역어의 하나 이상의 후보 동의어를 확인하는 단계를 포함하는 것을 특징으로 하는 방법.
  18. 타겟 언어에서의 복수의 음역어를 확인하는 동작;
    상기 타겟 언어에서의 복수의 음역어 중 각 음역어에 대하여, 소스 언어에서 의 하나 이상의 용어에 상기 음역어를 매핑하는 동작; 및
    상기 타겟 언어에서의 복수의 음역어 중 제 1 음역어에 대하여, 상기 타겟 언어에서의 복수의 음역어 중 하나 이상의 제 2 음역어를 상기 제 1 음역어의 후보 동의어로서 확인하는 동작을 포함하는 동작을 수행하도록 구성된 하나 이상의 컴퓨터를 구비하고,
    상기 하나 이상의 제 2 음역어 각각은 상기 제 1 음역어로부터도 매핑되는 상기 소스 언어에서의 적어도 하나의 용어에 매핑되는 것을 특징으로 하는 시스템.
  19. 타겟 언어로, 가능한 음역 동의어들의 트레이닝 그룹을 생성하는 동작;
    상기 타겟 언어에서의 음역 동의어에 있어서 스펠링 편차의 확률을 학습하기 위해 상기 트레이닝 그룹을 이용하여 확률 모델을 트레이닝하는 동작; 및
    상기 타겟 언어에서의 특유의 음역어에 상기 확률 모델을 적용하여, 상기 특유의 음역어의 하나 이상의 후보 동의어를 확인하는 동작을 포함하는 동작을 수행하도록 구성된 하나 이상의 컴퓨터를 구비하는 것을 특징으로 하는 시스템.
  20. 컴퓨터로 구현되는 방법에 있어서,
    하나 이상의 컴퓨터를 이용하여, 타겟 언어에서의 복수의 음역어를 확인하는 단계;
    상기 타겟 언어에서의 복수의 음역어 중 제 1 음역어에 대하여, 상기 타겟 언어에서의 복수의 음역어 중 하나 이상의 제 2 음역어를 상기 제 1 음역어의 후보 동의어로서 확인하는 단계; 및
    상기 제 1 음역어를 포함하는 쿼리를 확장하기 위하여, 상기 제 1 음역어의 상기 후보 동의어를 이용하는 단계를 포함하는 것을 특징으로 하는 방법.
KR1020090065978A 2008-07-18 2009-07-20 쿼리 확장을 위한 음역 KR20100009520A (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US8216508P 2008-07-18 2008-07-18
US61/082,165 2008-07-18
US12/503,806 2009-07-15
US12/503,806 US8521761B2 (en) 2008-07-18 2009-07-15 Transliteration for query expansion

Publications (1)

Publication Number Publication Date
KR20100009520A true KR20100009520A (ko) 2010-01-27

Family

ID=41531175

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090065978A KR20100009520A (ko) 2008-07-18 2009-07-20 쿼리 확장을 위한 음역

Country Status (3)

Country Link
US (2) US8521761B2 (ko)
KR (1) KR20100009520A (ko)
CN (2) CN101630333B (ko)

Families Citing this family (155)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
JP5558772B2 (ja) * 2009-10-08 2014-07-23 東レエンジニアリング株式会社 マイクロニードルシートのスタンパー及びその製造方法とそれを用いたマイクロニードルの製造方法
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
JP5090547B2 (ja) * 2011-03-04 2012-12-05 楽天株式会社 翻字処理装置、翻字処理プログラム、翻字処理プログラムを記録したコンピュータ読み取り可能な記録媒体、及び翻字処理方法
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
SG193324A1 (en) 2011-04-01 2013-10-30 Wyeth Llc Antibody-drug conjugates
US20120278302A1 (en) * 2011-04-29 2012-11-01 Microsoft Corporation Multilingual search for transliterated content
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
CN104272223B (zh) * 2012-02-28 2018-05-04 谷歌有限责任公司 用于将输入文本从第一字符集音译到第二字符集的技术
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US8918308B2 (en) 2012-07-06 2014-12-23 International Business Machines Corporation Providing multi-lingual searching of mono-lingual content
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9411803B2 (en) * 2012-09-28 2016-08-09 Hewlett Packard Enterprise Development Lp Responding to natural language queries
CN103810993B (zh) * 2012-11-14 2020-07-10 北京百度网讯科技有限公司 一种文本注音方法及装置
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9058805B2 (en) * 2013-05-13 2015-06-16 Google Inc. Multiple recognizer speech recognition
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10186282B2 (en) * 2014-06-19 2019-01-22 Apple Inc. Robust end-pointing of speech signals using speaker recognition
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
CN105786802B (zh) * 2014-12-26 2019-04-12 广州爱九游信息技术有限公司 一种外语的音译方法及装置
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10235432B1 (en) * 2016-07-07 2019-03-19 Google Llc Document retrieval using multiple sort orders
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11550751B2 (en) * 2016-11-18 2023-01-10 Microsoft Technology Licensing, Llc Sequence expander for data entry/information retrieval
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
CN109213777A (zh) * 2017-06-29 2019-01-15 杭州九阳小家电有限公司 一种基于语音的食谱处理方法及系统
US11170016B2 (en) * 2017-07-29 2021-11-09 Splunk Inc. Navigating hierarchical components based on an expansion recommendation machine learning model
US10885026B2 (en) 2017-07-29 2021-01-05 Splunk Inc. Translating a natural language request to a domain-specific language request using templates
US10713269B2 (en) 2017-07-29 2020-07-14 Splunk Inc. Determining a presentation format for search results based on a presentation recommendation machine learning model
US10565196B2 (en) 2017-07-29 2020-02-18 Splunk Inc. Determining a user-specific approach for disambiguation based on an interaction recommendation machine learning model
US11120344B2 (en) 2017-07-29 2021-09-14 Splunk Inc. Suggesting follow-up queries based on a follow-up recommendation machine learning model
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US11036938B2 (en) * 2017-10-20 2021-06-15 ConceptDrop Inc. Machine learning system for optimizing projects
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
KR102192376B1 (ko) * 2019-02-18 2020-12-17 네이버 주식회사 음역 모델을 이용하여 외래 동의어를 자동 추출하는 방법 및 시스템
US11263208B2 (en) 2019-03-05 2022-03-01 International Business Machines Corporation Context-sensitive cross-lingual searches
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11455456B2 (en) 2020-03-03 2022-09-27 Dell Products L.P. Content design structure adaptation techniques for localization of content presentation
US11494567B2 (en) * 2020-03-03 2022-11-08 Dell Products L.P. Content adaptation techniques for localization of content presentation
US11443122B2 (en) * 2020-03-03 2022-09-13 Dell Products L.P. Image analysis-based adaptation techniques for localization of content presentation
CN117672190A (zh) * 2022-09-07 2024-03-08 华为技术有限公司 一种音译方法及电子设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0877173A (ja) 1994-09-01 1996-03-22 Fujitsu Ltd 文字列修正システムとその方法
US5787452A (en) 1996-05-21 1998-07-28 Sybase, Inc. Client/server database system with methods for multi-threaded data processing in a heterogeneous language environment
US7610189B2 (en) 2001-10-18 2009-10-27 Nuance Communications, Inc. Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal
US7031911B2 (en) 2002-06-28 2006-04-18 Microsoft Corporation System and method for automatic detection of collocation mistakes in documents
WO2005029370A1 (en) * 2003-09-17 2005-03-31 Language Analysis Systems, Inc. Identifying related names
US20050216253A1 (en) 2004-03-25 2005-09-29 Microsoft Corporation System and method for reverse transliteration using statistical alignment
US20060112091A1 (en) * 2004-11-24 2006-05-25 Harbinger Associates, Llc Method and system for obtaining collection of variants of search query subjects
JP2008537225A (ja) * 2005-04-11 2008-09-11 テキストディガー,インコーポレイテッド クエリについての検索システムおよび方法
US8255376B2 (en) * 2006-04-19 2012-08-28 Google Inc. Augmenting queries with synonyms from synonyms map

Also Published As

Publication number Publication date
CN101630333A (zh) 2010-01-20
CN101630333B (zh) 2014-07-16
US20100017382A1 (en) 2010-01-21
US20130338996A1 (en) 2013-12-19
CN104111972A (zh) 2014-10-22
US8521761B2 (en) 2013-08-27
CN104111972B (zh) 2018-01-09

Similar Documents

Publication Publication Date Title
KR20100009520A (ko) 쿼리 확장을 위한 음역
US8386237B2 (en) Automatic correction of user input based on dictionary
US8745051B2 (en) Resource locator suggestions from input character sequence
US10115056B2 (en) Method and apparatus for responding to an inquiry
US9542476B1 (en) Refining search queries
US7917355B2 (en) Word detection
US7983902B2 (en) Domain dictionary creation by detection of new topic words using divergence value comparison
JP5608766B2 (ja) ターゲットページとは異なる文字セットおよび/または言語で書かれたクエリを使用する検索のためのシステムおよび方法
US8626486B2 (en) Automatic spelling correction for machine translation
CN102770859B (zh) 跨语言搜索选项
US20120060147A1 (en) Client input method
US8515731B1 (en) Synonym verification
KR20090091325A (ko) 자동적인 검색 쿼리 보정
KR20140056231A (ko) 검색 질의들의 소스 언어들 검출
US9811592B1 (en) Query modification based on textual resource context
US10831791B1 (en) Using location aliases
US9208233B1 (en) Using synthetic descriptive text to rank search results
US9208232B1 (en) Generating synthetic descriptive text
WO2008109769A1 (en) Machine learning for transliteration

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application