KR102152312B1 - 다중 언어 문서 클러스터링 - Google Patents

다중 언어 문서 클러스터링 Download PDF

Info

Publication number
KR102152312B1
KR102152312B1 KR1020157003740A KR20157003740A KR102152312B1 KR 102152312 B1 KR102152312 B1 KR 102152312B1 KR 1020157003740 A KR1020157003740 A KR 1020157003740A KR 20157003740 A KR20157003740 A KR 20157003740A KR 102152312 B1 KR102152312 B1 KR 102152312B1
Authority
KR
South Korea
Prior art keywords
documents
document
language
computing device
base
Prior art date
Application number
KR1020157003740A
Other languages
English (en)
Other versions
KR20150036566A (ko
Inventor
키릴 브리야크
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Publication of KR20150036566A publication Critical patent/KR20150036566A/ko
Application granted granted Critical
Publication of KR102152312B1 publication Critical patent/KR102152312B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English

Abstract

본 발명에 따른 기법은 클러스터링될 문서들의 모음을 식별하는 단계를 포함한다. 문서들의 상기 모음은 외국어 문서들과 베이스 언어 문서들을 포함할 수 있다. 상기 외국어 문서들은 베이스 언어 번역 모듈에서 베이스 언어로 번역될 수 있다. 베이스 언어 문서들의 키워드들과 번역된 외국어 문서들의 키워드들이 문서 인덱싱 모듈에서 결정될 수 있다. 베이스 언어 문서들의 결정된 키워드들과 번역된 외국어 문서들의 결정된 키워드들에 기초하여, 베이스 언어 문서들이 상기 외국어 문서들과 함께 문서 클러스터들의 공통 세트 내에 클러스터링될 수 있다. 제 1 언어로 된 검색 질의에 응답하여, 제 1 언어 및 다른 언어인 문서들을 포함하는 검색 결과들의 리스팅이 공통 문서 클러스터로부터 제공될 수 있다.

Description

다중 언어 문서 클러스터링{MULTI-LANGUAGE DOCUMENT CLUSTERING}
본 출원은 2012년 7월 16일자로 출원된 미국특허출원(출원번호 13/549,624)의 우선권을 주장하며, 상기 미국특허출원은 본 발명에 대한 참조로서 그 전체 내용이 본 명세서에 통합된다.
문서 클러스터 검색 질의들을 향상(enhance)시키는데 이용될 수 있다. 문서들의 집합은 공통인 피처들에 기초하여 클러스터링될 수 있다(clustered). 일 클러스터 내의 문서들은 단일 언어일 수 있다. 예를 들어, 문서 클러스터들을 형성하는데 이용된 키워드들의 결과로서, 문서들은 하나의 언어에 대하여 클러스터될 수 있다. 사용자가 검색 질의를 입력하는 경우, 제공된 결과들은 오직 하나의 언어로 된 일 그룹의 문서들과 관련이 있게 될 것이다. 이러한 결과로서, 다른 언어로 된, 상기 검색에 관련된 문서들은, 검색 질의에 응답하여 사용자에게 제공되지 않을 것이다.
본 발명의 다양한 실시예들에 따른 기법은, 컴퓨팅 디바이스 문서 수집 모듈에서, 클러스터링될 문서들의 모음을 식별하는 단계를 포함한다. 문서들의 상기 모음은 외국어 문서들과 베이스(base) 언어 문서들을 포함할 수 있다. 상기 외국어 문서들은 컴퓨팅 디바이스의 베이스 언어 번역 모듈에서 베이스 언어로 기계 번역될 수 있다. 베이스 언어 문서들의 키워드들과 번역된 외국어 문서들의 키워드들이 컴퓨팅 디바이스의 문서 인덱싱 모듈에서 결정될 수 있다. 문서 인덱싱 모듈에서, 언어에 무관한 키워드 인덱스(language-agnostic keyword index)가 상기 결정된 키워드들 각각에 할당될 수 있다. 컴퓨팅 디바이스의 클러스터링 모듈에서 상기 언어에 무관한 키워드 인덱스들에 기초하여, 상기 베이스 언어 문서들은 상기 외국어 문서들과 함께 문서 클러스터들의 공통 세트 내에 클러스터링될 수 있다. 문서 클러스터들의 상기 세트는 상기 베이스 언어 문서들과 상기 외국어 문서들 둘다를 포함할 수 있으며, 문서 클러스터들의 상기 세트는 데이터베이스에 저장될 수 있다.
본 발명의 다양한 실시예들에 따른 기법은, 컴퓨팅 디바이스 문서 수집 모듈에서, 클러스터링될 문서들의 모음을 식별하는 단계를 포함한다. 문서들의 상기 모음은 외국어 문서들과 베이스 언어 문서들을 포함할 수 있다. 상기 외국어 문서들은 컴퓨팅 디바이스의 베이스 언어 번역 모듈에서 베이스 언어로 번역될 수 있다. 베이스 언어 문서들의 키워드들과 번역된 외국어 문서들의 키워드들이 컴퓨팅 디바이스의 문서 인덱싱 모듈에서 결정될 수 있다. 베이스 언어 문서들의 결정된 키워드들과 번역된 외국어 문서들의 결정된 키워드들에 기초하여, 컴퓨팅 디바이스의 클러스터링 모듈에서, 베이스 언어 문서들이 상기 외국어 문서들과 함께 문서 클러스터들의 공통 세트 내에 클러스터링될 수 있다. 문서 클러스터들의 상기 세트는 베이스 언어 문서들과 외국어 문서들 둘다를 포함할 수 있으며 문서 클러스터들의 상기 세트는 데이터베이스에 저장될 수 있다.
본 발명의 다양한 실시예들에 따른 기법은, 컴퓨팅 디바이스의 중복 문서 결정 모듈에서, 상기 문서 클러스터들 중 하나 내의 제 1 언어로 된 제 1 문서가 상기 문서 클러스터들 중 상기 하나 내의 상기 제 1 언어와 다른 제 2 언어로 된 제 2 문서의 번역물에 대응하는 경우를 판별하는 단계 및 컴퓨팅 디바이스에서, 상기 제 1 문서가 상기 제 2 문서의 번역물에 대응하는 경우를 나타내는 표시를 제공하는 단계를 더 포함할 수 있다. 상기 제 1 문서가 상기 제 2 문서의 번역물에 대응하는 경우를 판별하는 단계는, 상기 문서 클러스터들 중 상기 하나 내의 문서들 간의 거리를 판별하는 단계와 상기 제 1 문서와 상기 제 2 문서 사이의 거리가 기결정된 임계값 이내인 경우를 나타내는 표시를 제공하는 단계를 포함할 수 있다. 상기 제 1 문서와 제 2 문서 사이의 거리는 상기 제 1 문서와 제 2 문서 간의 유사성의 레벨에 대응할 수 있다. 외국어 문서들을 베이스 언어로 번역하는 단계는, 외국어 문서들을 베이스 언어로 기계 번역하는 단계를 포함할 수 있다. 대안적으로, 외국어 문서들을 베이스 언어로 번역하는 단계는, 외국어 문서들을 번역 엔진으로 전송하는 단계 및 상기 번역 엔진으로부터 베이스 언어로 된 외국어 문서들의 번역물들을 수신하는 단계를 포함할 수 있다. 또한, 상기 기법은, 언어에 무관한 키워드 인덱스(language-agnostic keyword index)를 키워드들에 적용하는 단계를 더 포함할 수 있다. 상기 언어에 무관한 키워드 인덱스는 숫자 키워드 인덱스(numeric keyword index)를 포함할 수 있다. 상기 클러스터링은 상기 언어에 무관한 키워드 인덱스를 상기 키워드들에 적용한 이후에 발생할 수 있으며, 상기 외국어 문서들 및 상기 베이스 언어 문서들은 상기 언어에 무관한 키워드 인덱스에 기초하여, 문서 클러스터들의 상기 세트 내에 그룹화될 수 있다.
클러스터링될 문서들의 모음을 식별하는 단계는, 전자 상거래 제품 데이터베이스를 포함하는 폐쇄 시스템으로부터의 제품 데이터베이스에 액세스하는 단계를 포함할 수 있다. 문서 클러스터들 각각은 베이스 언어 및 적어도 하나의 외국어로 된 제품 데이터베이스 내의 관련 제품들의 제품 정보를 포함할 수 있다. 상기 기법은 또한, 상기 번역된 외국어 문서들을 일시적으로 저장하는 단계 및 상기 번역된 외국어 문서들 내의 키워드들을 결정한 이후에 상기 번역된 외국어 문서들을 제거하는 단계를 더 포함할 수 있다.
본 발명의 다양한 실시예들에 따른 기법은 문서 수집 모듈, 베이스 언어 번역 모듈, 문서 인덱싱 모듈, 클러스터링 모듈 및 데이터베이스를 포함할 수 있다. 문서 수집 모듈은 여러 언어들로 된 문서들을 포함하는 클러스터링될 문서들의 모음을 네트워크로부터 식별할 수 있으며 그리고 베이스 언어를 식별할 수 있다. 베이스 언어 번역 모듈은 문서 수집 모듈과 통신할 수 있으며, 베이스 언어를 식별할 수 있으며, 문서들의 모음으로부터의 외국어 문서들에 대한 베이스 언어 번역물들을 제공할 수 있다. 문서 인덱싱 모듈은 문서 수집 모듈 및 베이스 언어 번역 모듈과 통신할 수 있으며, 문서들의 모음에 속한 베이스 언어 문서들 및 외국어 문서들의 번역물들로부터 키워드들을 결정할 수 있다. 클러스터링 모듈은 문서 인덱싱 모듈과 통신할 수 있으며, 문서 인덱싱 모듈로부터의 결정된 키워드들에 기초하여, 문서들의 모음에 대한 문서 클러스터들을 생성할 수 있다. 문서 클러스터들은 문서들의 모음으로부터의 베이스 언어 문서들 및 외국어 문서들을 포함할 수 있다. 데이터베이스는 클러스터링 모듈과 통신할 수 있으며, 문서 클러스터들을 저장할 수 있다.
상기 기법은 또한, 데이터베이스와 통신하는 중복 문서 결정 모듈을 포함할 수 있는바, 상기 중복 문서 결정 모듈은 문서 클러스터들 중 하나 내의 제 1 언어로 된 제 1 문서가 상기 제 1 언어와 다른 제 2 언어로 된 제 2 문서의 번역물에 대응하는 경우를 판별할 수 있으며 그리고 상기 제 1 문서가 상기 제 2 문서의 번역물에 대응하는 경우를 나타내는 표시를 데이터베이스에 제공할 수 있다. 중복 문서 결정 모듈은 제 1 문서와 제 2 문서 사이의 거리를 판별할 수 있으며 그리고 제 1 문서와 제 2 문서 사이의 거리가 기결정된 임계값 이내인 경우를 나타내는 표시를 제공할 수 있다. 제 1 문서와 제 2 문서 사이의 거리는 상기 제 1 문서와 제 2 문서 간의 유사성의 레벨에 대응할 수 있다.
베이스 언어 번역 모듈은 외국어 문서들을 베이스 언어로 기계 번역할 수 있다. 문서 인덱싱 모듈은 언어에 무관한 키워드 인덱스를 각각의 키워드들에 제공할 수 있다. 클러스터링 모듈은 언어에 무관한 키워드 인덱스들에 기초하여 문서들의 모음에 대한 문서 클러스터들을 생성할 수 있다. 네트워크는 전자 상거래 제품 데이터베이스를 형성하는 폐쇄 시스템으로부터의 제품 데이터베이스를 포함할 수 있다. 문서 클러스터들 각각은 베이스 언어와 적어도 하나의 외국어인 제품 데이터베이스 내의 관련 제품들에 대한 제품 정보를 포함할 수 있다.
본 발명의 다양한 실시예들에 따른 기법은, 컴퓨팅 디바이스의 통신 모듈에서, 번역 웹페이지에 대한 요청을 사용자 디바이스와 상호작용하는 사용자로부터 수신하는 단계를 포함할 수 있으며, 상기 사용자 디바이스는 상기 컴퓨팅 디바이스와 통신한다. 상기 컴퓨팅 디바이스의 통신 모듈에서, 제 1 언어로 된 검색 질의가 사용자로부터 수신될 수 있다. 상기 검색 질의에 관련된 제 1 언어로 된 적어도 하나의 문서 및 상기 컴퓨팅 디바이스와 통신하는 데이터베이스로부터의 적어도 하나의 문서 클러스터가 상기 컴퓨팅 디바이스의 문서 식별 모듈에서 식별될 수 있다. 상기 적어도 하나의 문서는 사용자에 의해서 상기 제 1 언어로부터 상기 제 1 언어와 다른 제 2 언어로 번역이 요청된 제 1 문서를 포함할 수 있다. 상기 문서 클러스터는 상기 제 1 언어인 제 1 문서와 상기 제 2 언어인 추가 문서를 포함할 수 있다. 상기 문서 클러스터는, (i) 상기 컴퓨팅 디바이스 문서 수집 모듈에서, 클러스터링될 문서들의 모음을 식별하는 단계, 상기 문서들의 모음은 외국어 문서들과 베이스(base) 언어 문서들을 포함하며, (ii) 상기 컴퓨팅 디바이스의 베이스 언어 번역 모듈에서, 번역된 외국어 문서들을 획득하도록 상기 외국어 문서들을 상기 베이스 언어로 번역하는 단계, (iii) 상기 컴퓨팅 디바이스의 문서 인덱싱 모듈에서, 상기 베이스 언어 문서들의 키워드들과 상기 번역된 외국어 문서들의 키워드들을 결정하는 단계, (iv) 상기 컴퓨팅 디바이스의 클러스터링 모듈에서, 상기 베이스 언어 문서들의 결정된 키워드들과 상기 번역된 외국어 문서들의 결정된 키워드들에 기초하여, 상기 베이스 언어 문서들을 상기 외국어 문서들과 함께 문서 클러스터들의 공통 세트 내에 클러스터링하는 단계, 문서 클러스터들의 상기 세트는 상기 베이스 언어 문서들과 상기 외국어 문서들 둘다를 포함하고, 그리고 (v) 문서 클러스터들의 상기 세트를 데이터베이스에 저장하는 단계에 의해서 생성될 수 있다. 클러스터 평가 모듈에서, 상기 적어도 하나의 문서 클러스터는, 상기 제 1 문서로부터 기결정된 임계값 이내인 상기 제 2 언어로 된 제 2 문서에 대해서 평가될 수 있다. 여기서, 상기 제 1 문서와 제 2 문서 사이의 거리는 상기 제 1 문서와 제 2 문서 간의 유사성의 레벨에 대응한다. 상기 제 2 문서가 상기 제 1 문서로부터 상기 기결정된 임계값 이내에 있는 경우, 상기 검색 질의에 응답하여 상기 컴퓨팅 디바이스의 사용자 인터페이스 모듈을 통해 상기 제 2 문서를 상기 사용자 디바이스로 제공될 수 있다.
본 발명의 다양한 실시예들에 따른 기법은, 컴퓨팅 디바이스의 통신 모듈에서, 제 1 언어로 된 검색 질의를 사용자 디바이스와 상호작용하는 사용자로부터 수신하는 단계를 포함할 수 있으며, 상기 사용자 디바이스는 상기 컴퓨팅 디바이스와 통신한다. 상기 검색 질의에 관련된 제 1 언어로 된 적어도 하나의 문서 및 상기 컴퓨팅 디바이스와 통신하는 데이터베이스로부터의 적어도 하나의 문서 클러스터가 상기 컴퓨팅 디바이스의 문서 식별 모듈에서 식별될 수 있다. 상기 문서 클러스터는 상기 제 1 언어로 된 적어도 하나의 문서와 상기 제 1 언어와는 다른 제 2 언어로 된 추가 문서를 포함할 수 있다. 상기 검색 질의에 응답하여, 상기 컴퓨팅 디바이스로부터 검색 결과들의 리스팅(listing)이 상기 사용자 디바이스로 제공될 수 있다. 상기 검색 결과들의 리스팅은 상기 제 1 언어 및 제 2 언어를 포함하는 적어도 2개의 언어들로 된 문서들을 포함할 수 있다.
상기 검색 질의는 사용자로부터의 번역 웹페이지에 대한 요청을 포함할 수 있으며, 상기 적어도 하나의 문서는 사용자에 의해서 제 1 언어로부터 제 2 언어로 번역이 요청된 제 1 문서를 포함할 수 있다. 상기 기법은 또한, 상기 제 1 문서로부터 기결정된 임계값 이내인 상기 제 2 언어로 된 제 2 문서에 대해서 상기 적어도 하나의 문서 클러스터를 평가하는 단계, 및 상기 제 2 문서가 상기 제 1 문서로부터 상기 기결정된 임계값 이내에 있는 경우, 상기 검색 질의에 응답하여 상기 제 2 문서를 상기 사용자에게 제공하는 단계를 더 포함할 수 있다. 상기 제 1 문서와 제 2 문서 사이의 거리는 상기 제 1 문서와 제 2 문서 간의 유사성의 레벨에 대응할 수 있다.
상기 문서 클러스터는, (i) 상기 컴퓨팅 디바이스 문서 수집 모듈에서, 클러스터링될 문서들의 모음을 식별하는 단계, 상기 문서들의 모음은 외국어 문서들과 베이스(base) 언어 문서들을 포함하며, (ii) 상기 컴퓨팅 디바이스의 베이스 언어 번역 모듈에서, 번역된 외국어 문서들을 획득하도록 상기 외국어 문서들을 상기 베이스 언어로 번역하는 단계, (iii) 상기 컴퓨팅 디바이스의 문서 인덱싱 모듈에서, 상기 베이스 언어 문서들의 키워드들과 상기 번역된 외국어 문서들의 키워드들을 결정하는 단계, (iv) 상기 컴퓨팅 디바이스의 클러스터링 모듈에서, 상기 베이스 언어 문서들의 결정된 키워드들과 상기 번역된 외국어 문서들의 결정된 키워드들에 기초하여, 상기 베이스 언어 문서들을 상기 외국어 문서들과 함께 문서 클러스터들의 공통 세트 내에 클러스터링하는 단계, 문서 클러스터들의 상기 세트는 상기 베이스 언어 문서들과 상기 외국어 문서들 둘다를 포함하고, 그리고 (v) 문서 클러스터들의 상기 세트를 상기 데이터베이스에 저장하는 단계에 의해서 생성될 수 있다. 상기 제 1 언어는 상기 문서 클러스터를 생성하는데 이용되는 베이스 언어가 될 수 있거나 또는 상기 외국어 문서들 중 하나에 대응하는 언어가 될 수 있다.
검색 결과들의 리스팅을 제공하는 단계는, 제 1 언어인 문서들 및 적어도 제 2 언어인 문서들을 포함하는 결과들의 리스트를 상기 사용자 디바이스에 제공하는 단계를 포함할 수 있다. 대안적으로, 검색 결과들의 리스팅을 제공하는 단계는, 제 1 언어인 문서들을 포함하는 결과들의 리스트를 상기 사용자 디바이스에 제공하고 그리고 적어도 제 2 언어인 문서들을 포함하는 관련 외국어 문서들을 보여주는 옵션(option)을 사용자에게 제공하는 단계를 포함할 수 있다.
상기 검색 질의는 전자 상거래 웹사이트 상의 제 1 제품에 대한 식별(identification)을 포함할 수 있다. 상기 적어도 하나의 문서는 상기 제 1 제품에 대응할 수 있으며 그리고 상기 적어도 하나의 문서 클러스터는 상기 제 1 제품과 관련된 추가 제품들에 대한 정보를 포함할 수 있다. 여기서, 상기 정보는 상기 제 1 언어와는 다른 언어로 될 수 있다. 검색 결과들의 리스팅을 제공하는 단계는, 상기 검색 질의에 응답하여 추가 제품들의 리스팅을 사용자 디바이스에게 제공하는 단계를 포함할 수 있다.
본 발명의 다양한 실시예들에 따른 기법은 통신 모듈, 문서 식별 모듈 및 사용자 인터페이스 모듈을 포함할 수 있다. 통신 모듈은 제 1 언어로 된 검색 질의를 사용자 디바이스와 상호작용하는 사용자로부터 수신할 수 있으며, 상기 사용자 디바이스는 상기 컴퓨팅 디바이스와 통신한다. 문서 식별 모듈은 통신 모듈과 통신할 수 있으며, 그리고 상기 검색 질의에 관련된 제 1 언어로 된 적어도 하나의 문서 및 상기 컴퓨팅 디바이스와 통신하는 데이터베이스로부터의 적어도 하나의 문서 클러스터를 식별할 수 있다. 상기 문서 클러스터는 상기 제 1 언어로 된 적어도 하나의 문서와 상기 제 1 언어와는 다른 제 2 언어로 된 추가 문서를 포함할 수 있다. 사용자 인터페이스 모듈은 문서 식별 모듈과 통신할 수 있으며 그리고 검색 결과들의 리스팅(listing)을 생성 및 사용자 디바이스로 제공할 수 있다. 검색 결과들의 리스팅은 상기 제 1 언어 및 제 2 언어를 포함하는 적어도 2개의 언어들로 된 문서들을 포함할 수 있다. 통신 모듈은 사용자로부터 번역 웹페이지에 대한 요청을 수신할 수 있으며 그리고 상기 적어도 하나의 문서는 사용자에 의해서 제 1 언어로부터 제 2 언어로 번역이 요청된 제 1 문서를 포함할 수 있다.
상기 기법은 또한, 문서 식별 모듈과 통신하는 클러스터 평가 모듈을 더 포함하며, 상기 클러스터 평가 모듈은 상기 제 1 문서로부터 기결정된 임계값 이내인 상기 제 2 언어로 된 제 2 문서에 대해서 상기 적어도 하나의 문서 클러스터를 평가하며 그리고 상기 제 2 문서가 상기 제 1 문서로부터 상기 기결정된 임계값 이내에 있는 경우, 상기 검색 질의에 응답하여 상기 제 2 문서를 상기 사용자에게 제공한다. 상기 제 1 문서와 제 2 문서 사이의 거리는 상기 제 1 문서와 제 2 문서 간의 유사성의 레벨에 대응할 수 있다.
또한, 상기 기법은 문서 수집 모듈, 베이스 언어 번역 모듈, 문서 인덱싱 모듈 및 클러스터링 모듈을 포함할 수 있다. 적어도 하나의 문서 클러스터는, (i) 문서 수집 모듈에서, 클러스터링될 문서들의 모음을 식별하는 단계, 상기 문서들의 모음은 외국어 문서들과 베이스(base) 언어 문서들을 포함하며, (ii) 베이스 언어 번역 모듈에서, 외국어 문서들을 베이스 언어로 번역하는 단계, (iii) 문서 인덱싱 모듈에서, 상기 베이스 언어 문서들의 키워드들과 상기 번역된 외국어 문서들의 키워드들을 결정하는 단계, (iv) 클러스터링 모듈에서, 상기 베이스 언어 문서들의 결정된 키워드들과 상기 번역된 외국어 문서들의 결정된 키워드들에 기초하여, 상기 베이스 언어 문서들을 상기 외국어 문서들과 함께 문서 클러스터들의 공통 세트 내에 클러스터링하는 단계, 문서 클러스터들의 상기 세트는 상기 베이스 언어 문서들과 상기 외국어 문서들 둘다를 포함하고, 그리고 (v) 문서 클러스터들의 상기 세트를 상기 데이터베이스에 저장하는 단계에 의해서 생성될 수 있다.
상기 제 1 언어는 상기 문서 클러스터를 생성하는데 이용되는 베이스 언어가 될 수 있거나 또는 외국어 문서들 중 하나에 대응하는 언어가 될 수 있다. 검색 결과들의 리스팅은, 제 1 언어인 문서들 및 적어도 제 2 언어인 문서들을 포함할 수 있다. 대안적으로, 검색 결과들의 리스팅은, 제 1 언어인 문서들과 적어도 제 2 언어인 문서들을 포함하는 관련 외국어 문서들을 보여주기 위한 옵션(option)을 포함할 수 있다.
상기 검색 질의는 전자 상거래 웹사이트 상의 제 1 제품에 대한 식별(identification)을 포함할 수 있다. 상기 적어도 하나의 문서는 상기 제 1 제품에 대응할 수 있으며 그리고 상기 적어도 하나의 문서 클러스터는 상기 제 1 제품과 관련된 추가 제품들에 대한 정보를 포함할 수 있으며, 상기 정보는 상기 제 1 언어와는 다른 제 2 언어로 될 수 있다. 문서 식별 모듈은 상기 검색 질의에 응답하여 추가 제품들의 리스팅을 사용자 디바이스에게 제공할 수 있다.
이들 및 다른 구현예들은 다음과 같은 하나 이상의 장점들을 제공할 수 있다. 일부 구현예들에서, 상기 기법들은 향상된 검색 결과들을 제공할 수 있는바, 예컨대, 상기 질의에 응답하여 고려되는, 검색 질의의 언어와는 다른 언어로 된 문서들을 반환함으로써, 향상된 검색 결과들을 제공할 수 있다. 이러한 방식으로, 검색 질의에 관련되지만, 상기 검색 질의의 언어와는 다른 언어인 문서가 사용자에게 반환될 수 있다.
본 발명의 다른 응용 분야들은 발명의 상세한 설명으로부터 명백해질 것이다. 다음의 유의해야 하는바, 발명의 상세한 설명 및 특정 실시예들은 단지 예시를위한 것이며 본 발명의 범위를 제한하고자 의도된 것이 아니다.
본 발명은 다음의 상세한 설명 및 첨부된 도면들로부터 좀더 완벽하게 이해될 것이다.
도1은 본 발명의 기술들이 이용될 수 있는 예시적인 환경에 대한 개략도이다.
도2는 도1의 예시적인 제 1 컴퓨팅 디바이스의 기능 블록도이다.
도3은 본 발명에 따른 예시적인 문서 클러스터링 기법의 순서도이다.
도4는 도3의 클러스터링 기법을 예시하는 문서들의 예시적인 세트를 도시한 개략도이다.
도5는 도1의 예시적인 제 2 컴퓨팅 디바이스의 기능 블록도이다.
도6은 본 발명에 따른 예시적인 기법의 순서도이다.
이제 도1을 참조하면, 본 발명의 일부 실시예들에 따른 기술들이 활용될 수 있는 환경이 예시된다. 사용자(10)는 예컨대, 네트워크(14)에 액세스하도록 사용자 디바이스(12)와 상호작용할 수 있다. 네트워크(14)의 일례들은 인터넷, 광대역 통신망(WAN), 근거리 통신망(LAN), 및 사설 네트워크를 포함하지만, 이에 한정되는 것은 아니다. 제 1 컴퓨팅 디바이스(16) 및 제 2 컴퓨팅 디바이스(18)는 네트워크(14)에 연결될 수 있으며 그리고 사용자 디바이스(12)를 통해 사용자(10)에 의해 액세스될 수 있다. 본 명세서에서 사용되는 바와 같이, 컴퓨팅 디바이스는 가령, 서버들 및/또는 프로세서들 등과 같은 하나 이상의 컴퓨팅 디바이스들을 포함할 수 있다. 제 1 및 제 2 컴퓨팅 디바이스(16, 18)는 공통이거나 혹은 서로 구별되는 서버들 및/또는 프로세서들의 임의의 조합을 포함할 수 있다. 제 1 및 제 2 컴퓨팅 디바이스(16, 18) 각각은 문서 클러스터들의 세트를 저장하거나 및/또는 액세스하도록 데이터베이스(20)와 통신할 수 있다. 해당 기술분야의 당업자라면, 도1에 도시된 환경이 단지 예시적인 것이며 그리고 다른 환경들(가령, 더 많거나 더 적은 구성요소들을 포함하는 환경들, 추가 연결들을 포함하는 환경들 및/또는 다른 구성으로 배치된 환경들)이 본 발명과 함께 이용될 수도 있음을 능히 이해할 것이다.
도2를 참조하면, 제 1 컴퓨팅 디바이스(16)는, 문서 수집 모듈(22), 베이스 언어 번역 모듈(24), 문서 인덱싱 모듈(26), 클러스터링 모듈(28) 및 중복(duplicate) 문서 결정 모듈(30)을 포함할 수 있다. 문서 수집 모듈(22)은 네트워크(14)와 통신하며 그리고 클러스터링될 문서들의 모음(collection)을 식별한다. 문서 수집 모듈(22)은 베이스 언어 번역 모듈(24) 및 클러스터링 모듈(28)과 통신할 수 있으며, 이들에게 문서들을 제공할 수 있다. 문서들의 모음은 서로 다른 언어들로 된 문서들을 포함할 수 있다. 임의 개수의 서로 다른 언어로 된 문서들이 포함될 수 있다. 제 1 컴퓨팅 디바이스(16)는 서로 다른 언어들로 된 문서들을 클러스터링하기 위한 기법을 제공한다. 문서 인덱싱 모듈(26), 클러스터링 모듈(28) 및 중복 문서 결정 모듈(30) 각각은 데이터베이스(20)와 통신할 수 있다. 문서 인덱싱 모듈(26)은 또한 베이스 언어 번역 모듈(24) 및 클러스터링 모듈(28)과 통신할 수 있다.
예시적인 클러스터링 기법(100)이 도3의 순서도에 예시된다. 단계 110에서, 클러스터링될 문서들의 모음이 문서 수집 모듈(22)에 의해서 식별된다. 문서들의 모음은 여러 언어들로 된 문서들을 포함할 수 있다. 문서들의 모음은 월드와이드 웹 상의 문서들의 임의의 서브세트 혹은 모든 서브세트를 포함할 수 있다. 대안적으로, 문서들의 모음은 가령, 제품 데이터베이스 등과 같은, 폐쇄 시스템 내의 문서들의 세트를 포함할 수 있다. 문서들이 식별된 이후에, 문서들은 공통(베이스) 언어로 번역된다(단계 112).
이러한 번역은 외국어(논-베이스:non-base) 문서들을 베이스 언어로 번역하는 기계 번역을 포함할 수 있다. 이러한 번역은 베이스 언어 번역 모듈(24)에 의해서 로컬적으로(locally) 수행될 수도 있으며 또는 번역 엔진(32)으로 전송될 수도 있다. 번역들은 데이터베이스(20)에 저장될 수 있다. 단계 114에서, 문서 인덱싱 모듈(26)에 의해서 문서들로부터의 키워드들이 판별된다. 키워드 리스팅을 생성하도록, 상기 번역된 및 베이스 언어 문서들 상에 웹 크라울링(web crawling)이 이용될 수도 있다. "a" , "an" , "the" 등의 스톱 워드(stop word)와 같은 중요하지 않은 단어들은 키워드 결정을 위한 고려에서 생략될 수도 있다.
다음으로, 단계 116에서, 문서 인덱싱 모듈(26)에 의해서 키워드들이 언어에 무관한 방식(language-agnostic manner)으로 인덱스화된다. 도4는 문서 인덱싱의 간략화된 표현을 도시한다. 문서 인덱싱은 문서 내의 각각의 키워드에 숫자 키워드 식별자(numeric keyword identifier)를 할당하는 것을 포함할 수 있다. 오직 예시를 위한 목적으로, 상기 베이스 언어는 영어일 수 있다. 도4의 "문서 1"은 독일어 문서의 영역 번역이 될 수 있다. "문서 2"는 원래부터(native) 영어인 문서가 될 수 있으며 그리고 "문서 n"은 스페인어 문서의 영어 번역이 될 수 있다. 단계 114에서, 번역된 및 베이스 언어 문서들에 대하여, 베이스 언어(상기 일례에서는 영어) 내의 키워드들이 결정된다(상기 일례에서는 키워드 1, 2, 3, 4, 5).
단계 116에서, 상기 기법은 언어에 무관한 키워드 인덱스(language-agnostic keyword index)(상기 일례에서는 Id1, Id2, Id3, Id4, Id5)를 키워드들에 할당한다. 번역된 문서들의 모음은 키워드들에 의해서 인덱스화될 수 있다. 문서 인덱싱 모듈(26)은 문서들에 대한 상기 언어에 무관한 키워드 인덱스를 데이터베이스(20)에 저장할 수 있다. 그 결과, 데이터베이스(20)는, 베이스 언어 문서들 및 그들의 네이티브 언어들로 된 외국어 문서들 둘다를 포함하는 문서들의 오리지널 모음(original collection)에 대한, 상기 언어에 무관한 키워드 인덱스를 갖는다. 키워드 인덱싱이 완료된 이후에 외국어 문서들에 대한 번역들이 삭제될 수도 있다. 따라서, 문서들의 모음은 여러 언어들(상기 일례에서는 영어, 독일어, 및 스페인어)일 수 있으며 그리고 언어에 무관한 방식으로 인덱스화될 수 있다.
클러스터링 모듈(28)은 키워드 인덱스에 의해서 문서들을 클러스터링한다(단계 118). 클러스터링 모듈(28)은 임의 개수의 문서 클러스터링 알고리즘들을 포함하는 다양한 방법들로 문서들 상에 작용할 수 있다. 비제한적인 일례로서, 문서 클러스터링 알고리즘들은, 연결성 모델(connectivity model), 중심 모델(centroid model), 분산 모델(distribution model), 밀도 모델(density model), 서브스페이스 모델 혹은 그룹 모델을 포함할 수 있다. 문서는 사용되는 클러스터링 기법에 따라, 하나 이상의 문서 클러스터들로 그룹화될 수 있다. 본 발명은 임의의 특정한 클러스터링 기법만으로 제한되지 않으며 그리고 다양한 공지의 클러스터링 기법들 중 임의의 것을 이용하여 본 발명이 적용될 수 있다.
문서들이 문서 클러스터들로 분리되면, 클러스터링 모듈(28)은 각각의 클러스터 내의 문서들을 거리 함수에 의해서 순위정렬(rank)할 수 있다. 거리 함수는 2개의 문서들 간의 유사성 레벨에 대응하는, 2개의 문서들 사이의 거리를 생성한다. 단지 일례로서, 도4의 "문서 1, 2, ... n" 각각이 하나의 클러스터에 속한다고 가정하자. 간략화된 형식에서, 문서들 간의 거리는, 상기 문서들이 공통으로 갖는 키워드들의 개수에 의해서 정의될 수 있다.
거리 (문서 1, 문서 2) = 4
거리 (문서 1, 문서 n) = 2
거리 (문서 2, 문서 n) = 2
다음으로 클러스터 내의 문서들은 도4에 도시된 순서대로(문서 1, 문서 2, 문서 n) 정렬될 수 있는데, 왜냐하면 "문서 1"과 "문서 2"가 가장 많은 공통 키워드들을 갖기 때문이다.
전술한 일례는 설명의 위한 목적으로 간략화된 것이다. 다음을 유의해야 하는바, 실제로는, 문서들 내의 용어들의 빈도(frequency)가 고려될 수 있으며 그리고 문서 내의 워드들의 전체 개수에 대해서 정규화(normalize)될 수 있다. "문서 1, 2, ... n"에 대한 상기 일례는 키워드 인덱싱을 할당할 때에 키워드 위치 및 메타데이터를 고려함으로써 더욱 세밀해질 수 있다. 문서 클러스터들이 생성되고 그리고 문서 클러스터들 내에서 문서들이 순위정렬된 이후에, 문서 클러스터들이 데이터베이스(20)에 저장된다(단계 120).
또한, 문서 클러스터들은, 문서 클러스터 내의 제 1 언어로 된 제 1 문서가 상기 문서 클러스터 내의 제 2 언어(제 1 언어와 다른)로 된 제 2 문서에 대응하는 경우를 추정하는데 이용될 수 있다. 중복 문서 결정 모듈(30)은 클러스터링 모듈(28)과 통신하여, 제 1 및 제 2 문서들이 서로 다른 언어로 된 "동일한" 문서인 경우를 추정할 수 있다. 중복 문서 결정 모듈(30)은 전술한 바와 같은 거리 함수를 적용하여, 제 1 및 제 2 문서들이 서로 다른 언어로 된 동일한 문서인 경우를 추정할 수 있다. 예를 들어, 상기 문서들이 서로 다른 언어로 된 동일한 문서인 경우를 결정하도록, 기결정된 임계값이 설정될 수 있다. 도4에 도시된 일례에서, 만일 기결정된 임계값이 "4"로 설정되었다면, "문서 1" 은, 영어로 된 "문서 2"의 등가물인 독일어 문서라고 추정될 수 있다. 중복 문서 결정 모듈(30)은 제 1 문서 및 제 2 문서가 서로 다른 언어로 된 동일한 문서임을 나타내도록, 데이터베이스(20)를 업데이트할 수 있다.
추가적으로, 중복 문서 결정 모듈(30)은 머신 학습 알고리즘 엔진(34)과 통신할 수 있다. 중복 문서 결정 모듈(30)은 서로 다른 언어로 된 "동일한" 문서라고 추정된 문서 쌍들을 병렬 텍스트로서 머신 학습 알고리즘 엔진(34)에 제공할 수 있는바, 이는 기계 번역을 위해 머신 학습 알고리즘 엔진(34)을 트레이닝시키는데 이용될 수 있다.
전술한 바와 같이, 상기 기법(100)은 월드와이드 웹에 일반적으로 적용될 수 있으며 또는 폐쇄 시스템에 적용될 수도 있다. 예시적인 폐쇄 시스템 어플리케이션은 전자 상거래(e-commerce) 웹사이트를 포함한다. 비제한적인 일례로서, 폐쇄 시스템 어플리케이션에서, 문서 수집 모듈(22)에 의해서 식별된 문서들의 모음은, 전자 상거래 제품 데이터베이스로부터의 제품들을 포함할 수 있다. 전술한 상기 기법(100)은 전자 상거래 제품 데이터베이스에 적용될 수 있으며 그리고 여러 언어로 된 관련 제품들의 클러스터들이 생성될 수 있다.
도5에 도시된 바와 같이, 제 2 컴퓨팅 디바이스(18)는 통신 모듈(200), 문서 식별 모듈(202), 사용자 인터페이스 모듈(204) 및 클러스터 평가 모듈(206)을 포함할 수 있다. 통신 모듈(200)은 문서 식별 모듈(202)과 통신할 수 있다. 문서 식별 모듈(202)은 사용자 인터페이스 모듈(204) 및 클러스터 평가 모듈(206)과 통신할 수 있다.
예시적인 기법(300)이 도6에 도시된 순서도에 예시된다. 상기 기법(300)은, 사용자 검색 질의로부터의 문서를 문서 클러스터에 위치시킴으로써 그리고 문서의 기결정된 임계값 내의 문서들을 포함함으로써, 확장된 검색 결과들을 제공한다. 검색에 포함된 추가 문서들은 검색 언어와 다른 임의의 언어가 될 수 있는데, 이는 다중 언어 문서 클러스터들이 사용되기 때문이다.
통신 모듈(200)은 네트워크(14)를 통해 사용자 디바이스(12)와 통신하며 그리고 사용자 디바이스(12)로부터 검색 질의를 수신한다(단계 302). 검색 질의는 제 1 언어가 될 수 있다. 단계 304에서, 문서 식별 모듈(202)은 검색 질의와 관련된 제 1 언어로 된 제 1 문서를 식별한다. 문서 식별 모듈(202)은 데이터베이스(20)로부터 제 1 문서를 포함하는 문서 클러스터를 식별하며 그리고 제 1 언어와는 다른 제 2 언어로 된 적어도 하나의 문서(제 2 문서)를 상기 문서 클러스터에서 식별한다(단계 306). 단계 308에서, 사용자 인터페이스 모듈(204)은 상기 제 1 언어 및 제 2 언어를 포함하는 적어도 2개의 언어들로 된 문서들을 포함하는 검색 결과들을 생성한다. 이러한 결과들은 사용자 디바이스(12)로 제공될 수 있다. 상기 결과들은 다양한 방법으로 제공될 수 있다. 비제한적인 제 1 일례에서, 검색 결과들은 서로 다른 언어들로 된 결과들의 리스팅(listing)을 포함한다. 비제한적인 제 2 일례에서, 검색 결과들은, 제 1 언어와 다른 하나 이상의 언어들로 된 추가적인 참조문헌들을 사용자에게 디스플레이하라는 옵션과 함께, 제 1 언어로 된 검색 결과들의 리스팅(listing)을 포함한다.
전술한 바와 같은, 전자 상거래 제품 데이터베이스에 관하여 문서 클러스터들을 적용하는 경우, 상기 기법(300)은 제품 데이터베이스에 대한 문서 클러스터로부터 외국어 설명들을 포함하는 제품들을 제공할 수 있다. 전자 상거래 어플리케이션에서는, 단계 302에서, 검색 질의는 사용자가 특정한 제품을 포함할 수 있다. 단계 304에서, 사용자가 특정한 제품이 문서 클러스터에 위치되며 그리고 제품 데이터베이스 내의 제품이 식별된다. 단계 306에서, 제품 데이터베이스 문서 클러스터로부터 관련 제품들이 결정된다. 검색 언어(제 1 언어)와 다른 언어들로 된 설명들 혹은 제품 정보를 갖는 제품들을 포함하는, 추천된 제품들이 사용자를 위해 단계 308에서 생성될 수 있다. 추천된 제품 리스팅이 단계 310에서 사용자 디바이스(12)에 제공된다.
전술한 상기 기법(300)은 또한, 사용자(10)로부터의 번역 요청들에 적용될 수도 있다. 예를 들어, 번역 요청들에 적용되는 경우, 통신 모듈(200)은, 번역 웹페이지에 대한 요청 및 문서 번역 요청을 사용자(10)로부터 수신한다. 문서 번역 요청은 제 1 언어로부터 제 2 언어로 문서를 번역하기 위한 요청을 포함한다(단계 302). 단계 304에서, 문서 식별 모듈(202)에 의해서 문서가 식별된다. 단계 306에서, 상기 문서는 클러스터 평가 모듈(206)에 의해서 데이터베이스(20) 내의 문서 클러스터에 위치된다.
클러스터 평가 모듈(206)은 문서 클러스터 내의 제 2 언어로 된 제 2 문서가 제 1 문서로부터 기결정된 임계값 내에 속하는지를 결정한다. 만일, 제 2 문서가 기결정된 임계값 내에 속한다면, 상기 제 1 문서 및 제 2 문서는 서로에 대한 번역물들이라고 결정되며 그리고 번역 요청에 대한 응답으로서 제 2 문서가 사용자(10)에게 제공된다. 추가적으로, 만일, 제 2 문서가 메타데이터 혹은 가령, 제 2 문서가 사람에 의한 번역인지의 여부 등과 같은 상기 문서의 기원(origin)에 관한 정보를 제공하는 몇몇 다른 표시자들을 포함한다면, 상기 정보도 사용자(10)에게 제공될 수 있다.
전술한 바와 같은 제 1 언어 및 제 2 언어는, 다양한 방법으로 문서 클러스터들을 생성하는데 이용되는 베이스 언어 및 외국어에 관련될 수도 있다. 또한, 임의 개수의 서로 다른 언어들이 전술한 일례들에 포함될 수도 있음을 유의해야 한다. 제 1 실시예에서, 제 1 언어는 베이스 언어이며, 제 2 언어는 외국어들 중 하나이다. 제 2 실시예에서, 제 1 언어는 외국어들 중 하나이며, 제 2 언어는 베이스 언어이다. 제 3 실시예에서, 제 1 언어는 외국어들 중 하나이며, 제 2 언어는 외국어들 중 다른 하나이다(제 1 언어와는 다름).
예시적인 실시예들이 제공되는바, 따라서 본 발명이 완전히 이해될 것이며 그리고 본 발명의 기술적 사상이 해당 기술분야의 당업자에게 완전히 전달될 것이다. 본 발명의 실시예들에 대한 철저한 이해를 제공하기 위해서, 특정한 구성요소들, 디바이스들 및 방법들에 대한 일례들로서 다양한 세부 내용들이 서술된다. 다음을 유의해야 하는바, 특정한 세부 내용들이 반드시 적용될 필요는 없으며, 예시적인 실시예들은 서로 다른 많은 형태들로 구체화될 수도 있으며, 그리고 본 발명의 범위를 제한하는 의도로 해석되지 않아야 한다.
본 명세서에서 사용된 용어들은 특정한 예시적인 실시예들을 단지 설명하기 위한 것일 뿐이며 제한하기 위한 것으로 의도되지 않는다. 본 명세서에서 사용된 바와 같이, "하나의(a, an)" 및 "상기(the)" 라는 단수형은 문맥에서 명시적으로 다르게 서술하지 않으면, 복수형들도 포함하도록 의도될 수 있다. "및/또는" 이라는 용어는 하나 이상의 관련 항목들의 일부 또는 모든 조합을 포함한다. "포함한다(comprises)" , "포함한(comprising, including), 및 "갖는다(having)" 이라는 용어는 포괄적인 것이며, 따라서 언급된 피처들, 정수들, 단계들, 동작들, 요소들, 그리고/또는 컴포넌트들의 존재를 명시하지만, 하나 이상의 다른 피처들, 정수들, 단계들, 동작들, 요소들, 컴포넌트들, 및/또는 이들의 그룹들의 존재 혹은 부가를 배제하지 않는다. 본 명세서에 서술된 방법 단계들, 프로세스들, 및 동작들은, 수행 순서로서 특별하게 식별되지 않는 한, 논의된 혹은 예시된 특정 순서대로 반드시 실행될 필요는 없다. 추가적인 혹은 대안적인 단계들이 적용될 수도 있음을 유의해야 한다.
비록, 다양한 요소들, 컴포넌트들, 영역들, 층들 및/또는 구역들을 서술하기 위해서 제 1, 제 2, 제 3 등등이라는 용어가 본 명세서에서 사용될 수도 있지만, 이들 요소들, 컴포넌트들, 영역들, 층들 및/또는 구역들은 상기 용어들에 의해서 한정되지 않아야 한다. 이들 용어들은 하나의 요소, 컴포넌트, 영역, 층 또는 구역을 다른 하나의 영역, 층, 혹은 구역 등과 구별하기 위해서만 이용될 수도 있다. 가령, "제 1(first)" , "제 2(second)" 및 다른 숫자 용어들은, 본 명세서에서 사용되는 경우, 문맥에서 명확히 표현되지 않는 한, 시퀀스 혹은 순서를 암시하지 않는다. 따라서, 아래에 논의되는 제 1 요소, 컴포넌트, 영역, 층 혹은 구역은, 예시적인 실시예들의 가르침을 벗어남이 없이, 제 2 요소, 컴포넌트, 영역, 층 혹은 구역을 지칭할 수도 있다.
본 명세서에서 이용되는 바와 같이, 모듈이라는 용어는, 특수 목적 집적회로(ASIC), 전자 회로, 논리 회로의 조합, 필드 프로그램가능한 게이트 어레이(FPGA), 프로세서 혹은 프로세서들의 분산 네트워크(공유, 전용, 혹은 그룹화된) 및 코드 혹은 프로세스를 실행하는 네크워크화된 클러스터들 혹은 데이터센터들 내의 저장소, 전술한 기능을 제공하는 다른 적절한 컴포넌트들 혹은 전술한 것들의 전부 혹은 일부의 조합(가령, 시스템-온-칩)을 지칭하거나, 이들의 일부가 되거나, 혹은 이들을 포함할 수 있다. 또한, 모듈이라는 용어는 하나 이상의 프로세서들에 의해서 실행되는 코드를 저장하는 메모리(공유, 전용, 혹은 그룹화된)를 포함한다.
코드라는 용어는 소프트웨어, 펌웨어, 바이트-코드 및/또는 마이크로코드를 포함할 수 있으며 그리고 프로그램, 루틴, 함수, 클래스 및/또는 객체를 지칭할 수도 있다. "공유(shared)" 라는 용어는 복수의 모듈들로부터의 일부 혹은 모든 코드가 단일(공유) 프로세서를 이용하여 실행될 수 있음을 의미한다. 복수의 모듈들로부터의 일부 혹은 모든 코드는 단일(공유) 메모리에 저장될 수도 있다. 그룹이라는 용어는 단일 모듈로부터의 일부 혹은 모든 코드가 프로세서들의 그룹을 이용하여 실행될 수도 있음을 의미한다. 또한, 단일 모듈로부터의 일부 혹은 모든 코드는 메모리들의 그룹을 이용하여 저장될 수도 있다.
본 명세서에 서술된 기법들은 하나 이상의 프로세서들에 의해서 실행되는 하나 이상의 컴퓨터 프로그램들에 의해서 구현될 수 있다. 컴퓨터 프로그램들은, 유형의 비일시적인 컴퓨터 판독가능한 매체 상에 저장된 프로세서-실행가능한 명령들을 포함한다. 컴퓨터 프로그램들은, 또한 저장 데이터를 포함할 수 있다. 유형의 비일시적인 컴퓨터 판독가능한 매체에 대한 비제한적인 일례들은, 비휘발성 메모리, 자기 저장기기, 및 광학 저장기기를 포함한다.
전술한 설명의 일부분은, 알고리즘들 및 정보 상의 동작들에 대한 상징적인(symbolic) 표현들을 이용하여 본 발명의 기법들을 제시한다. 이들 알고리즘적인 설명들 및 표현들은 데이터 프로세싱 분야의 당업자들이 그들의 작업내용을 다른 당업자들에게 가장 효과적으로 전달하기 위해 이용하는 수단들이다. 이들 동작들은, 비록 기능적으로 혹은 논리적으로 서술되었지만, 컴퓨터 프로그램들에 의해서 구현되는 것으로 이해되어야 한다. 또한, 일반성을 상실함이 없이, 동작들의 이러한 구성들을 모듈들로서 혹은 기능적 명칭들로 지칭하는 것이 종종 편리하다는 것이 입증되었다.
전술한 논의로부터 명백한 바와 같이, 명시적으로 달리 언급하지 않는 한, "프로세싱" 또는 "컴퓨팅" 혹은 "계산(calculating)" 혹은 "결정(determing)" 혹은 "디스플레잉" 등의 용어들을 이용하는 논의들은, 컴퓨터 시스템 혹은 유사한 전자 컴퓨팅 디바이스의 행동 및 프로세스들을 지칭하며, 이들 컴퓨터 시스템은 컴퓨터 시스템 메모리들 혹은 레지스터들 혹은 다른 정보 저장소, 전송 및 디스플레이 디바이스 내에서, 물리적인(전자적인) 양들로 표현되는 데이터를 조작하거나 변환한다.
서술된 기법들이 몇몇 양상들은 알고리즘의 형태로 여기에 서술된 프로세스 단계들 및 명령들을 포함한다. 서술된 프로세스 단계들 및 명령들은 소프트웨어, 펌웨어, 혹은 하드웨어로 구현될 수 있음을 유의해야 하며, 그리고 소프트웨어로 구현되는 경우, 상주하거나 동작되도록, 실시간 네트워크 운영 시스템들에 의해서 이용되는 다른 플랫폼들로부터 다운로드될 수도 있음을 유의해야 한다.
본 발명은 또한 본 명세서의 동작들을 수행하기 위한 장치에 관련된다. 상기 장치는 요구되는 목적들을 위해 특별하게 구성될 수도 있으며 또는 컴퓨터에 의해서 액세스될 수 있는 컴퓨터 판독가능한 매체 상에 저장된 컴퓨터 프로그램에 의해서 선택적으로 활성되거나 재구성될 수 있는 범용 컴퓨터를 포함할 수도 있다. 이러한 컴퓨터 프로그램은 유형의 컴퓨터 판독가능한 저장 매체에 저장될 수 있는바, 컴퓨터 판독가능한 저장 매체는, 플로피 디스크, 광 디스크, CD-ROM, 자기-광학 디스크, 판독 전용 메모리(ROM), 랜덤 액세스 메모리(RAM), EPROM, EEPROM, 자기 혹은 광학 카드, ASIC, 혹은 그 각각이 컴퓨터 시스템 버스에 연결되며 전자 명령들을 저장하기에 적합한 다른 유형의 매체를 포함할 수 있지만, 이에 한정되는 것은 아니다. 또한, 본 명세서에서 지칭되는 컴퓨터들은, 단일 프로세서를 포함할 수도 있으며 혹은 향상된 계산 능력을 위해 다중 프로세서 설계를 채용한 아키텍쳐들이 될 수도 있다.
본 명세서의 알고리즘들 및 동작들은, 본질적으로 임의의 특정한 컴퓨터 혹은 다른 장치에 관련된 것은 아니다. 다양한 범용 시스템들이 본 발명의 가르침에 따른 프로그램들과 함께 이용될 수 있다. 또는 요구되는 방법 단계들을 수행하기 위해 보다 특별한 장치들을 구성하는 것이 보다 편리할 것이라고 입증될 수도 있다. 이들 다양한 시스템들을 위해 요구되느 구조는 그 등가적인 변형물과 함께, 해당 기술분야의 당업자에게 자명할 것이다. 또한, 본 발명은 임의의 특정한 프로그래밍 언어를 참조하여 설명되지 않는다. 본 발명을 구현하기 위해 다양한 프로그래밍 언어들이 이용될 수도 있음을 유의해야 하며, 특정 언어들에 대한 임의의 참조들은, 가능성의 개시 및 최적 실행 모드를 위해 제공된다.
본 발명은 수 많은 토폴로지들을 통해 매우 다양한 컴퓨터 네트워크 시스템들에 적합할 수 있다. 이러한 분야에서, 대형 네트워크들의 구성 및 관리는 가령 인터넷 등의 네트워크를 통해 유사하지 않은 컴퓨터들 및 저장 디바이스들에 통신가능하게 접속된 저장 디바이스들 및 컴퓨터들을 포함한다.
실시예들에 대한 전술한 설명은, 예시 및 서술을 위한 목적으로 제공되었다. 이는 본 발명을 한정하거나 속속들이 규명하고자 의도된 것이 아니다. 특정 실시예의 개별 요소들 혹은 피처들은 일반적으로, 그 특정 실시예만으로 한정되지 않으며, 적용가능한 경우, 호환가능하며, 그리고 명시적으로 도시 및 서술되지 않았다 하더라도, 선택된 실시예에서 이용될 수 있다. 동일한 것이 다양한 방식들로 변형될 수 있다. 이러한 변형들은 본 발명의 범위를 벗어나는 것으로 간주되지 않야아 하며, 이러한 모든 수정예들은 본 발명의 범위에 속하는 것으로 의도된다.

Claims (20)

  1. 컴퓨터로 구현되는 방법으로서,
    컴퓨팅 디바이스의 통신 모듈에서, 번역 웹페이지에 대한 요청을 사용자 디바이스와 상호작용하는 사용자로부터 수신하는 단계, 상기 사용자 디바이스는 상기 컴퓨팅 디바이스와 통신하며;
    상기 컴퓨팅 디바이스의 통신 모듈에서, 제 1 언어로 된 검색 질의를 상기 사용자로부터 수신하는 단계;
    상기 컴퓨팅 디바이스의 문서 식별 모듈에서, 상기 검색 질의에 관련된 하나 이상의 문서들 및 상기 컴퓨팅 디바이스와 통신하는 데이터베이스로부터의 적어도 하나의 문서 클러스터를 식별하는 단계 -상기 하나 이상의 문서들은 문서들의 모음으로부터의 문서들이고, 그리고 사용자에 의해서 상기 제 1 언어로부터 상기 제 1 언어와 다른 제 2 언어로 번역이 요청된 제 1 문서를 포함하고, 상기 문서 클러스터는 상기 제 1 언어인 상기 제 1 문서와 상기 제 2 언어인 하나 이상의 추가 문서들을 포함하며, 상기 문서 클러스터는,
    (i) 상기 컴퓨팅 디바이스 문서 수집 모듈에서, 클러스터링될 문서들의 모음을 식별하는 단계, 상기 문서들의 모음은 외국어 문서들과 베이스(base) 언어 문서들을 포함하며,
    (ii) 상기 컴퓨팅 디바이스의 베이스 언어 번역 모듈에서, 번역된 외국어 문서들을 획득하도록 상기 외국어 문서들을 상기 베이스 언어로 번역하는 단계,
    (iii) 상기 컴퓨팅 디바이스의 문서 인덱싱 모듈에서, 상기 베이스 언어 문서들의 키워드들과 상기 번역된 외국어 문서들의 키워드들을 결정하는 단계,
    (iv) 상기 컴퓨팅 디바이스의 클러스터링 모듈에서, 상기 베이스 언어 문서들의 결정된 키워드들과 상기 번역된 외국어 문서들의 결정된 키워드들에 기초하여, 상기 베이스 언어 문서들을 상기 외국어 문서들과 함께 문서 클러스터들의 공통 세트 내에 클러스터링하는 단계, 문서 클러스터들의 상기 세트는 상기 베이스 언어 문서들과 상기 외국어 문서들 둘다를 포함하고, 그리고
    (v) 문서 클러스터들의 상기 세트를 데이터베이스에 저장하는 단계
    에 의해서 생성되며 -;
    상기 컴퓨팅 디바이스의 클러스터 평가 모듈에서, 상기 제 1 문서로부터 기결정된 임계값 이내인 상기 제 2 언어로 된 상기 하나 이상의 추가 문서들로부터의 제 2 문서를 식별하도록 상기 적어도 하나의 문서 클러스터를 평가하는 단계, 상기 제 1 문서와 제 2 문서 사이의 거리는 상기 제 1 문서와 제 2 문서 간의 유사성의 레벨에 대응하며;
    상기 적어도 하나의 문서 클러스터로부터 상기 제 2 문서를 선택하는 단계; 그리고
    상기 제 2 문서가 상기 제 1 문서로부터 상기 기결정된 임계값 이내에 있는 경우, 상기 검색 질의에 응답하여 상기 컴퓨팅 디바이스의 사용자 인터페이스 모듈을 통해 상기 제 2 문서를 상기 사용자 디바이스로 제공하는 단계
    를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  2. 컴퓨터로 구현되는 방법으로서,
    컴퓨팅 디바이스의 통신 모듈에서, 제 1 언어로 된 검색 질의를 사용자 디바이스와 상호작용하는 사용자로부터 수신하는 단계, 상기 사용자 디바이스는 상기 컴퓨팅 디바이스와 통신하며;
    상기 컴퓨팅 디바이스의 문서 식별 모듈에서, 상기 검색 질의에 관련된 제 1 언어로 된 적어도 하나 이상의 문서들 및 상기 컴퓨팅 디바이스와 통신하는 데이터베이스로부터의 적어도 하나의 문서 클러스터를 식별하는 단계 -상기 하나 이상의 문서들은 문서들의 모음으로부터의 문서들이고; 문서 클러스터는 문서들의 모음에서 생성되고 그리고 상기 제 1 언어로 된 하나 이상의 문서들과 상기 제 1 언어와는 다른 제 2 언어로 된 하나 이상의 추가 문서들을 포함함 -;
    제 1 문서로부터 기결정된 임계값 이내인 상기 제 2 언어로 된 상기 하나 이상의 추가 문서들로부터의 제 2 문서를 식별하도록 적어도 하나의 문서 클러스터를 평가하는 단계 -상기 제 1 문서와 제 2 문서 사이의 거리는 상기 제 1 문서와 제 2 문서 간의 유사성의 레벨에 대응함-;
    상기 검색 질의에 응답하여, 상기 컴퓨팅 디바이스로부터 검색 결과들의 리스팅(listing)을 상기 사용자 디바이스로 제공하는 단계를 포함하며,
    상기 검색 결과들의 리스팅은 문서들의 모음에서의 문서들만 포함하고, 상기 문서들의 모음에서의 문서들은 상기 제 1 언어 및 제 2 언어를 포함하는 적어도 2개의 언어들로 된 문서들인 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  3. 제2항에 있어서,
    상기 검색 질의는 사용자로부터의 번역 웹페이지에 대한 요청을 포함하며, 상기 하나 이상의 문서들은 사용자에 의해서 상기 제 1 언어로부터 상기 제 1 언어와 다른 제 2 언어로 번역이 요청된 상기 제 1 문서를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  4. 삭제
  5. 제2항에 있어서,
    상기 문서 클러스터는,
    (i) 상기 컴퓨팅 디바이스의 문서 수집 모듈에서, 클러스터링될 문서들의 모음을 식별하는 단계, 상기 문서들의 모음은 외국어 문서들과 베이스(base) 언어 문서들을 포함하며,
    (ii) 상기 컴퓨팅 디바이스의 베이스 언어 번역 모듈에서, 번역된 외국어 문서들을 획득하도록 상기 외국어 문서들을 상기 베이스 언어로 번역하는 단계,
    (iii) 상기 컴퓨팅 디바이스의 문서 인덱싱 모듈에서, 상기 베이스 언어 문서들의 키워드들과 상기 번역된 외국어 문서들의 키워드들을 결정하는 단계,
    (iv) 상기 컴퓨팅 디바이스의 클러스터링 모듈에서, 상기 베이스 언어 문서들의 결정된 키워드들과 상기 번역된 외국어 문서들의 결정된 키워드들에 기초하여, 상기 베이스 언어 문서들을 상기 외국어 문서들과 함께 문서 클러스터들의 공통 세트 내에 클러스터링하는 단계, 문서 클러스터들의 상기 세트는 상기 베이스 언어 문서들과 상기 외국어 문서들 둘다를 포함하고, 그리고
    (v) 문서 클러스터들의 상기 세트를 상기 데이터베이스에 저장하는 단계
    에 의해서 생성되는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  6. 제5항에 있어서,
    상기 제 1 언어는 상기 문서 클러스터를 생성하는데 이용되는 베이스 언어인 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  7. 제5항에 있어서,
    상기 제 1 언어는 상기 외국어 문서들 중 하나에 대응하는 언어인 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  8. 제2항에 있어서,
    상기 검색 결과들의 리스팅을 제공하는 단계는,
    제 1 언어인 문서들 및 적어도 제 2 언어인 문서들을 포함하는 결과들의 리스트를 상기 사용자 디바이스에 제공하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  9. 제2항에 있어서,
    상기 검색 결과들의 리스팅을 제공하는 단계는,
    제 1 언어인 문서들을 포함하는 결과들의 리스트를 상기 사용자 디바이스에 제공하고 그리고 적어도 제 2 언어인 문서들을 포함하는 관련 외국어 문서들을 보여주는 옵션(option)을 사용자에게 제공하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  10. 제2항에 있어서,
    상기 검색 질의는
    전자 상거래 웹사이트 상의 제 1 제품에 대한 식별(identification)을 포함하고, 상기 하나 이상의 문서들은 상기 제 1 제품에 대응하며 그리고 상기 적어도 하나의 문서 클러스터는 상기 제 1 제품과 관련된 추가 제품들에 대한 정보를 포함하고, 상기 정보는 상기 제 1 언어와는 다른 언어로 된 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  11. 제10항에 있어서,
    상기 검색 결과들의 리스팅을 제공하는 단계는,
    상기 검색 질의에 응답하여 상기 추가 제품들의 리스팅을 사용자 디바이스에 제공하는 단계를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  12. 컴퓨터로 구현되는 방법으로서,
    하나 이상의 프로세서들을 갖는 컴퓨팅 디바이스에서, 클러스터링될 문서들의 모음을 식별하는 단계, 상기 문서들의 모음은 외국어 문서들과 베이스 언어 문서들을 포함하며;
    상기 컴퓨팅 디바이스에서, 번역된 외국어 문서들을 획득하도록 상기 외국어 문서들을 상기 베이스 언어로 번역하는 단계;
    상기 컴퓨팅 디바이스에서, 상기 베이스 언어 문서들의 키워드들과 상기 번역된 외국어 문서들의 키워드들을 결정하는 단계;
    상기 번역된 외국어 문서들을 일시적으로 저장하는 단계 및 상기 번역된 외국어 문서들 내의 키워드들을 결정한 이후에 상기 번역된 외국어 문서들을 제거하는 단계;
    상기 컴퓨팅 디바이스에서, 상기 베이스 언어 문서들의 결정된 키워드들과 상기 번역된 외국어 문서들의 결정된 키워드들에 기초하여, 상기 베이스 언어 문서들을 상기 외국어 문서들과 함께 문서 클러스터들의 공통 세트 내에 클러스터링하는 단계, 문서 클러스터들의 상기 세트는 상기 베이스 언어 문서들과 상기 외국어 문서들 둘다를 포함하고;
    문서 클러스터들의 상기 세트를 저장하는 단계;
    상기 컴퓨팅 디바이스에서, 상기 문서 클러스터들 중 하나 내의 제 1 언어로 된 제 1 문서가 상기 문서 클러스터들 중 상기 하나 내의 상기 제 1 언어와 다른 제 2 언어로 된 제 2 문서의 번역물에 대응하는 경우를 판별하는 단계를 포함하며,
    상기 제 1 문서가 상기 제 2 문서의 번역물에 대응하는 경우를 판별하는 단계는,
    상기 문서 클러스터들 중 상기 하나 내의 문서들 간의 거리를 판별하는 단계와 상기 제 1 문서와 상기 제 2 문서 사이의 거리가 기결정된 임계값 이내인 경우를 나타내는 표시를 제공하는 단계를 포함하며, 상기 제 1 문서와 제 2 문서 사이의 거리는 상기 제 1 문서와 제 2 문서 간의 유사성의 레벨에 대응하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  13. 제12항에 있어서, 상기 방법은,
    상기 컴퓨팅 디바이스에서, 상기 제 1 문서가 상기 제 2 문서의 번역물에 대응하는 경우를 나타내는 표시를 제공하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  14. 삭제
  15. 제12항에 있어서,
    상기 외국어 문서들을 상기 베이스 언어로 번역하는 단계는,
    상기 외국어 문서들을 상기 베이스 언어로 기계 번역하는 단계를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  16. 제12항에 있어서,
    상기 외국어 문서들을 상기 베이스 언어로 번역하는 단계는,
    상기 외국어 문서들을 번역 엔진으로 전송하는 단계 및 상기 번역 엔진으로부터 상기 베이스 언어로 된 상기 외국어 문서들의 번역물들을 수신하는 단계를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  17. 제12항에 있어서,
    언어에 무관한 키워드 인덱스(language-agnostic keyword index)를 상기 키워드들에 적용하는 단계
    를 더 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  18. 제17항에 있어서,
    상기 언어에 무관한 키워드 인덱스는 숫자 키워드 인덱스(numeric keyword index)를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  19. 제17항에 있어서,
    상기 클러스터링은 상기 언어에 무관한 키워드 인덱스를 상기 키워드들에 적용한 이후에 발생하며,
    상기 외국어 문서들 및 상기 베이스 언어 문서들은 상기 언어에 무관한 키워드 인덱스에 기초하여, 문서 클러스터들의 상기 세트 내에 그룹화되는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  20. 삭제
KR1020157003740A 2012-07-16 2013-07-11 다중 언어 문서 클러스터링 KR102152312B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/549,624 2012-07-16
US13/549,624 US8639698B1 (en) 2012-07-16 2012-07-16 Multi-language document clustering
PCT/US2013/050018 WO2014014732A1 (en) 2012-07-16 2013-07-11 Multi-language document clustering

Publications (2)

Publication Number Publication Date
KR20150036566A KR20150036566A (ko) 2015-04-07
KR102152312B1 true KR102152312B1 (ko) 2020-09-04

Family

ID=49914892

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157003740A KR102152312B1 (ko) 2012-07-16 2013-07-11 다중 언어 문서 클러스터링

Country Status (5)

Country Link
US (1) US8639698B1 (ko)
EP (1) EP2873009A4 (ko)
KR (1) KR102152312B1 (ko)
CN (1) CN104620241B (ko)
WO (1) WO2014014732A1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9349135B2 (en) * 2013-07-30 2016-05-24 Intuit Inc. Method and system for clustering similar items
WO2016162872A1 (en) * 2015-04-08 2016-10-13 Elady Limited Data transformation system and method
US9984068B2 (en) * 2015-09-18 2018-05-29 Mcafee, Llc Systems and methods for multilingual document filtering
CN105320646A (zh) * 2015-11-17 2016-02-10 天津大学 一种基于增量聚类的新闻话题挖掘方法及其装置
CN106855807B (zh) * 2016-12-16 2020-04-21 北京创世乐享科技有限公司 多语言表单的呈现方法及系统
US10691734B2 (en) * 2017-11-21 2020-06-23 International Business Machines Corporation Searching multilingual documents based on document structure extraction
CN109063184B (zh) * 2018-08-24 2020-09-01 广东外语外贸大学 多语言新闻文本聚类方法、存储介质及终端设备
CN111738022B (zh) * 2020-06-23 2023-04-18 中国船舶工业综合技术经济研究院 一种国防军工领域机器翻译优化方法及系统
TWI810513B (zh) * 2021-01-14 2023-08-01 首岳資訊網路股份有限公司 網站自動翻譯生成系統及其方法
US20230029058A1 (en) * 2021-07-26 2023-01-26 Microsoft Technology Licensing, Llc Computing system for news aggregation
CN113643573B (zh) * 2021-08-16 2023-03-10 广州番禺职业技术学院 可学习的外语翻译词汇查询装置及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020156763A1 (en) * 2000-03-22 2002-10-24 Marchisio Giovanni B. Extended functionality for an inverse inference engine based web search
US20100131563A1 (en) 2008-11-25 2010-05-27 Hongfeng Yin System and methods for automatic clustering of ranked and categorized search objects
US20110106805A1 (en) 2009-10-30 2011-05-05 International Business Machines Corporation Method and system for searching multilingual documents

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997008604A2 (en) 1995-08-16 1997-03-06 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US5956711A (en) 1997-01-16 1999-09-21 Walter J. Sullivan, III Database system with restricted keyword list and bi-directional keyword translation
US20020002452A1 (en) 2000-03-28 2002-01-03 Christy Samuel T. Network-based text composition, translation, and document searching
JP2003076710A (ja) 2001-09-04 2003-03-14 Japan Science & Technology Corp 多言語情報検索システム
KR20040059240A (ko) 2002-12-28 2004-07-05 엔에이치엔(주) 다국어 검색 번역 서비스 제공 방법 및 이를 위한 시스템
GB0316806D0 (en) * 2003-07-17 2003-08-20 Ivis Group Ltd Improved search engine
JP3856778B2 (ja) 2003-09-29 2006-12-13 株式会社日立製作所 複数言語を対象とした文書分類装置及び文書分類方法
EP1776629A4 (en) 2004-07-21 2011-05-04 Equivio Ltd METHOD FOR DETERMINING QUASI DUPLICATE OF OBJECTS
US7844566B2 (en) 2005-04-26 2010-11-30 Content Analyst Company, Llc Latent semantic clustering
US7720856B2 (en) 2007-04-09 2010-05-18 Sap Ag Cross-language searching
US7890493B2 (en) * 2007-07-20 2011-02-15 Google Inc. Translating a search query into multiple languages
US20090083243A1 (en) 2007-09-21 2009-03-26 Google Inc. Cross-language search
WO2009154570A1 (en) 2008-06-20 2009-12-23 Agency For Science, Technology And Research System and method for aligning and indexing multilingual documents
EP2261818A1 (en) * 2009-06-09 2010-12-15 Dudu Communications FZ-LLC A method for inter-lingual electronic communication
KR20110116790A (ko) 2010-04-20 2011-10-26 삼성전자주식회사 휴대용 단말기에서 번역 서비스 제공을 위한 장치 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020156763A1 (en) * 2000-03-22 2002-10-24 Marchisio Giovanni B. Extended functionality for an inverse inference engine based web search
US20100131563A1 (en) 2008-11-25 2010-05-27 Hongfeng Yin System and methods for automatic clustering of ranked and categorized search objects
US20110106805A1 (en) 2009-10-30 2011-05-05 International Business Machines Corporation Method and system for searching multilingual documents

Also Published As

Publication number Publication date
WO2014014732A1 (en) 2014-01-23
US20140019451A1 (en) 2014-01-16
CN104620241A (zh) 2015-05-13
KR20150036566A (ko) 2015-04-07
EP2873009A4 (en) 2015-12-02
CN104620241B (zh) 2018-12-07
US8639698B1 (en) 2014-01-28
EP2873009A1 (en) 2015-05-20

Similar Documents

Publication Publication Date Title
KR102152312B1 (ko) 다중 언어 문서 클러스터링
CN110765275B (zh) 搜索方法、装置、计算机设备和存储介质
Christophides et al. Entity resolution in the web of data
Ramnandan et al. Assigning semantic labels to data sources
US8819047B2 (en) Fact verification engine
US20130212081A1 (en) Identifying additional documents related to an entity in an entity graph
WO2013133985A1 (en) Entity augmentation service from latent relational data
KR20160124742A (ko) 비정형 텍스트내의 특징들의 중의성을 해소하는 방법
Nesi et al. Geographical localization of web domains and organization addresses recognition by employing natural language processing, Pattern Matching and clustering
Tian et al. QODI: Query as context in automatic data integration
CN112784062A (zh) 一种成语知识图谱构建方法及装置
US20180189380A1 (en) Job search engine
US11074266B2 (en) Semantic concept discovery over event databases
US10866944B2 (en) Reconciled data storage system
Pooja et al. Exploiting similarities across multiple dimensions for author name disambiguation
WO2017074621A1 (en) Automated information retrieval
US20160321345A1 (en) Chain understanding in search
Misra et al. Topic cohesion preserving requirements clustering
US20160292282A1 (en) Detecting and responding to single entity intent queries
Knoblock et al. Automatic spatio-temporal indexing to integrate and analyze the data of an organization
CN104462519A (zh) 搜索查询方法和装置
Kandpal et al. Effective ontology alignment: an approach for resolving the ontology heterogeneity problem for semantic information retrieval
Giannini et al. A Logic-based approach to Named-Entity Disambiguation in the Web of Data
CN110609959B (zh) 基于项目生命周期的检索方法、存储介质及电子设备
Xie et al. Incorporating semantic knowledge with MRF term dependency model in medical document retrieval

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant