KR101650112B1 - 음역을 위한 기계 학습 - Google Patents

음역을 위한 기계 학습 Download PDF

Info

Publication number
KR101650112B1
KR101650112B1 KR1020117008322A KR20117008322A KR101650112B1 KR 101650112 B1 KR101650112 B1 KR 101650112B1 KR 1020117008322 A KR1020117008322 A KR 1020117008322A KR 20117008322 A KR20117008322 A KR 20117008322A KR 101650112 B1 KR101650112 B1 KR 101650112B1
Authority
KR
South Korea
Prior art keywords
potential range
pair
pairs
anchor text
transliteration
Prior art date
Application number
KR1020117008322A
Other languages
English (en)
Other versions
KR20110083623A (ko
Inventor
슬라벤 빌락
히로시 이치카와
Original Assignee
구글 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 인코포레이티드 filed Critical 구글 인코포레이티드
Publication of KR20110083623A publication Critical patent/KR20110083623A/ko
Application granted granted Critical
Publication of KR101650112B1 publication Critical patent/KR101650112B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

음역 쌍들을 자동적으로 식별하기 위한, 컴퓨터 프로그램 제품을 포함하는, 방법들, 시스템들, 및 장치들이 설명된다. 한 실시예에서는, 방법이 제공된다. 그 방법은 복수의 앵커 텍스트를 포함하는 복수의 리소스를 수신하는 단계; 상기 복수의 앵커 텍스트로부터 하나 이상의 잠재 음역을 판단하는 단계; 및 상기 하나 이상의 잠재 음역으로부터 하나 이상의 잠재 음역 쌍을 식별하는 단계를 포함하고, 각 잠재 음역 쌍은 제1 문자 체계로 된 제1 앵커 텍스트와 제2 문자 체계로 된 제2 앵커 텍스트를 포함하고, 상기 제2 앵커 텍스트와 상기 제1 앵커 텍스트는 동일한 리소스 또는 위치를 식별한다.

Description

음역을 위한 기계 학습{MACHINE LEARNING FOR TRANSLITERATION}
본 명세서는 음역(transliteration)에 관한 것이다.
전자 문서들은 일반적으로 많은 다른 언어들로 쓰여져 있다. 각 언어들은 보통 특정 자모(alphabet)에 의해 특성이 결정되는 특정 문자 체계(writing system, 예를 들어, 스크립트)에서는 정상적으로 표현된다. 예를 들어, 영어는 라틴어 문자를 사용하여 표현될 수 있고, 일본어는 카타카나 문자를 사용하여 표현할 수 있다. 일부 언어들에 의해 사용되는 스크립트들은 추가 기호들 또는 문자들을 포함하기 위해 확장된 특정 자모를 포함한다. 음역에서, 제1 문자 체계가 제2 문자 체계에 의해 정상적으로 표현된 단어들을 표시하기 위해 사용된다. 예를 들어, 음역된 용어는 한 스크립트에서 다른 스크립트로 변환된 용어이거나 한 스크립트에 있는 용어에 대한 다른 스크립트에서의 음성 표현일 수 있다. 음역은 번역과는 다를 수 있는데, 이는 용어에 대한 의미가 음역된 용어에는 반영되지 않기 때문이다.
음역 쌍(transliteration pairs)을 추출하기 위한 기술들은 주석이 달린 훈련 데이터(annotated training data) 또는 언어 특정적 데이터(language specific data)를 요구할 수 있다. 예를 들어, 음역을 위한 종래 기술들은 제1 스크립트에 있는 하나 이상의 특정 문자가 제2 스크립트에 있는 하나 이상의 문자에 매핑될 수 있다는 것을 명시하는 규칙들을 사용한다. 이 규칙들은 일반적으로 언어 특정적이고, 주석이 달린 훈련 데이터 및/또는 병렬 훈련 데이터(예를 들어, 제1 및 제2 스크립트에 있는 훈련 데이터를 비교할 수 있음)를 요구할 수 있다.
본 발명은 음역을 위한 기계 학습을 제공하는 것을 목적으로 한다.
본 명세서는 음역을 위한 기계 학습에 관련된 기술들을 설명한다.
일반적으로, 본 명세서에서 설명된 주제의 한 양태는 복수의 리소스를 수신하는 동작들을 포함하는 방법으로 구체화될 수 있다. 그 복수의 리소스는 복수의 앵커 텍스트(anchor text)를 포함할 수 있다. 하나 이상의 잠재 음역(potential transliteration)은 그 복수의 앵커 텍스트로부터 판단될 수 있다. 하나 이상의 잠재 음역은, 상기 하나 이상의 잠재 음역이 동일한 리소스 또는 위치를 식별하는 텍스트와 함께 발생할 가능성에 기초하여 정렬될 수 있다. 하나 이상의 잠재 음역 쌍은 하나 이상의 잠재 음역으로부터 식별될 수 있다. 각 잠재 음역 쌍은 제1 문자 체계로 된 제1 앵커 텍스트와 제2 문자 체계로 된 제2 앵커 텍스트를 포함할 수 있다. 제2 앵커 텍스트와 제1 앵커 텍스트는 동일한 리소스 또는 위치를 식별할 수 있다. 각 잠재 음역 쌍을 대하여, 제1 앵커 텍스트와 제2 앵커 텍스트는 비교될 수 있고, 그 비교에 기초하여 잠재 음역 쌍은 음역 쌍이 되는 것 또는 음역 쌍이 되지 않는 것으로 제1 분류될 수 있다.
제1 분류된 잠재 음역 쌍들은 제1 정렬된 잠재 음역 쌍들을 생성하기 위해, 제1 분류된 잠재 음역 쌍들이 음역 쌍들이 될 가능성에 기초하여 제1 정렬될 수 있다. 제1 정렬된 잠재 음역 쌍의 서브세트이 식별될 수 있다. 그 서브세트는 음역 쌍들이 되는 것으로 분류된 잠재 음역 쌍들과 음역 쌍들이 되지 않는 것으로 분류된 잠재 음역 쌍들을 포함할 수 있다.
서브세트에 있는 잠재 음역 쌍 각각에 대하여, 제1 앵커 텍스트 및 제2 앵커 텍스트가 배열될 수 있고, 그 배열로부터 하나 이상의 편집(edit)이 추출될 수 있다. 하나 이상의 편집과 상기 서브세트에 기초하여, 분류 모델(classification model)이 생성될 수 있다. 그 분류 모델을 사용하여, 제1 분류된 잠재 음역 쌍 각각이 역 쌍이 되는 것 또는 음역 쌍이 되지 않는 것으로 제2 분류될 수 있다. 이 양태의 다른 실시예들은 상응하는 시스템, 장치, 및 컴퓨터 프로그램 제품을 포함한다.
이러한 및 그 밖의 실시예들은 선택적으로 아래 특징들 중 하나 이상을 선택적으로 포함할 수 있다. 제1 앵커 텍스트와 제2 앵커 텍스트를 비교하는 단계는, 제1 앵커 텍스트와 제2 앵커 텍스트 간의 제1 편집 거리(edit distance)를 판단하는 단계와, 제1 편집 거리를 제1 임계값과 비교하는 단계를 포함할 수 있다. 배열 단계는 제1 편집 거리를 최소화하는 것에 기초할 수 있다. 제1 임계값은 제1 앵커 텍스트의 길이와 제2 앵커 텍스트의 길이보다 작을 수 있다. 제1 편집 거리가 제1 임계값보다 클 때 잠재 음역 쌍이 음역쌍이 되지 않을 것으로 제1 분류될 수 있고, 제1 편집 거리가 제1 임계값 미만일 때 음역 쌍이 되는 것으로 제1 분류될 수 있다.
분류 모델을 생성하는 방법은 하나 이상의 편집 각각을 특징(feature)에 연관시키는 단계와, 각 특징에 대한 특징 가중치(feature weight)를 생성하는 단계를 포함할 수 있다. 제2 분류 단계는, 제1 분류된 잠재 음역 쌍 각각에 대하여, 제1 분류된 잠재 음역 쌍을 분류 모델에 있는 하나 이상의 특성에 비교하는 단계; 상기 비교에 기초하여 하나 이상의 특징 가중치를 판단하는 단계; 및 분류 점수(classification score)를 마련하기 위하여 하나 이상의 특징 가중치를 합산하는 단계를 포함할 수 있다.
상기 방법은 제1 문자 체계에 연관된 하나 이상의 편집에 대하여, 제2 분류된 잠재 음역 쌍들이 음역 쌍들이 될 가능성들에 기초하여 제2 분류된 잠재 음역 쌍들을 제2 정렬하는 단계; 및 제2 정렬된 잠재 음역 쌍 각각에 대하여, 제2 정렬된 잠재 음역 쌍에 상응하는 분류 점수가 제2 정렬된 잠재 음역 쌍이 음역 쌍이 아니라는 것을 나타낼 때, 제2 정렬된 잠재 음역 쌍을 음역 쌍이 되지 않는 것으로 재분류하는 단계; 제2 정렬된 잠재 음역 쌍이 음역 쌍으로 될 가능성이 가장 높고, 제2 정렬된 잠재 음역 쌍에 상응하는 분류 점수가 제2 정렬된 잠재 음역 쌍이 음역 쌍이라는 것을 나타낼 때, 제2 정렬된 잠재적 음역 쌍을 최적 잠재 음역 쌍으로 재분류하는 단계; 제2 정렬된 잠재 음역 쌍과 최적 잠재 음역 쌍 간의 제2 편집 거리를 판단하는 단계; 제2 정렬된 잠재 음역 쌍의 제2 편집 거리가 제2 임계값 미만이고, 제2 정렬된 잠재 음역 쌍에 상응하는 분류 점수가 제2 정렬된 잠재 음역 쌍이 음역 쌍이라는 것을 나타낼 때, 제2 정렬된 잠재 음역 쌍을 음역 쌍이 되는 것으로 재분류하는 단계; 및 제2 정렬된 잠재 음역 쌍의 제2 편집 거리가 제2 임계값보다 클 때, 제2 정렬된 잠재 음역 쌍을 음역 쌍이 되지 않는 것으로 재분류하는 단계를 더 포함할 수 있다.
상기 방법은 제2 문자 체계에 연관된 하나 이상의 편집에 대하여, 재분류된 잠재 음역 쌍이 음역 쌍이 될 가능성에 기초하여 재분류된 잠재 음역 쌍을 제3 정렬하는 단계; 음역 쌍이 되는 것으로 분류된 제3 정렬된 잠재 음역 쌍 각각에 대하여, 제3 정렬된 잠재 음역 쌍에 상응하는 분류 점수가 제3 정렬된 잠재 음역 쌍이 음역 쌍이 아니라는 것을 나타낼 때, 제3 정렬된 잠재 음역 쌍을 음역 쌍이 되지 않는 것으로 재분류하는 단계; 제3 정렬된 잠재 음역 쌍을 음역 쌍이 될 가능성이 가장 높고, 제3 정렬된 잠재 음역 쌍에 상응하는 분류 점수가 제3 정렬된 잠재 음역 쌍이 음역 쌍이라는 것을 나타낼 때, 제3 정렬된 잠재 음역 쌍을 최적 잠재 음역 쌍으로 재분류하는 단계; 제3 정렬된 잠재 음역 쌍과 최적 잠재 음역 쌍 간에 제3 편집 거리를 판단하는 단계; 제3 정렬된 잠재 음역 쌍의 제3 편집 거리가 제3 임계값 미만이고 제3 정렬된 잠재 음역 쌍에 상응하는 분류 점수가 제3 정렬된 잠재 음역 쌍이 음역 쌍이라는 것을 나타낼 때, 제3 정렬된 잠재 음역 쌍을 음역 쌍이 되는 것으로 재분류하는 단계; 및 제3 정렬된 잠재 음역 쌍의 제3 편집 거리가 제3 임계값보다 클 때, 제3 정렬된 잠재 음역이 음역쌍을 되지 않는 것으로 재분류하는 단계를 더 포함할 수 있다.
분류 모델은 SVM(Support Vector Machine)을 사용할 수 있다. 가능성들은 로그 최우비((Log-Likelihood Ratio)들을 사용하여 계산할 수 있다.
일반적으로, 본 명세서에 설명된 주제의 다른 양태는 복수의 리소스를 수신하는 동작들을 포함하는 방법들로 구체화될 수 있다. 복수의 리소스는 복수의 앵커 텍스트를 포함할 수 있다. 하나 이상의 잠재 음역은 복수의 앵커 텍스트로부터 판단될 수 있다. 하나 이상의 잠재 음역 쌍은 하나 이상의 잠재 음역으로부터 식별될 수 있다. 잠재 음역 쌍 각각은 제1 문자 체계로 된 제1 앵커 텍스트와 제2 문자 체계된 제2 앵커 텍스트를 포함할 수 있다. 제2 앵커 텍스트와 제1 앵커 텍스트는 동일한 리소스 또는 위치를 식별할 수 있다.
잠재 음역 쌍 각각에 대하여, 잠재 음역 쌍은 음역 쌍이 되는 것 또는 음역 쌍이 되지 않는 것으로 분류될 수 있고, 제1 앵커 텍스트가 제2 앵커 텍스트에 맞춰 배열될 수 있다. 하나 이상의 편집이 그 배열로부터 추출될 수 있다. 분류 모델은 하나 이상의 편집과 분류된 잠재 음역 쌍들의 서브세트에 기초하여 생성될 수 있다. 본 양태의 다른 실시예들은 상응하는 시스템, 장치, 및 컴퓨터 제품을 포함한다.
이러한 및 다른 구현예들은 하나 이상의 후술되는 특징을 선택적으로 포함할 수 있다. 상기 방법은 분류 모델을 사용하여 잠재 음역 쌍들로부터 음역 쌍들을 식별하는 단계를 더 포함한다. 하나 이상의 잠재 음역이 동일한 리소스 또는 위치를 식별하는 텍스트와 함께 발생할 가능성에 기초하여, 하나 이상의 잠재 음역 쌍들이 하나 이상의 잠재 음역으로부터 식별될 수 있다. 분류 단계는 제1 앵커 텍스트와 제2 앵커 텍스트 사이트 간의 제1 편집 거리를 판단하는 단계; 제1 편집 거리를 제1 임계값에 비교하는 단계; 및 그 비교에 기초하여 잠재 음역 쌍을 음역 쌍이 되는 것 또는 음역 쌍이 되지 않는 것으로 분류하는 단계를 포함할 수 있다. 배열 단계는 제1 편집 거리를 최소화하는 것에 기초할 수 있다. 제1 임계값은 제1 앵커 텍스트의 길이와 제2 앵커 텍스트의 길이보다 더 적을 수 있다.
상기 방법은 세밀화 규칙(refinement rule)들과 제1 문자 체계로 된 하나 이상의 편집에 기초하여 잠재 음역 쌍들을 재분류하는 단계를 더 포함할 수 있다. 또한, 상기 방법은 세밀화 규칙들과 제2 문자 체계로 된 하나 이상의 편집에 기초하여 분류된 잠재 음역 쌍을 음역 쌍이 되는 것으로 재분류하는 단계를 포함할 수 있다. 상기 방법은 분류된 잠재 음역 쌍들이 음성 쌍들이 될 가능성에 기초하여 상기 분류된 잠재 음역 쌍들을 정렬하는 단계를 더 포함할 수 있다. 상기 서브세트는 음역 쌍이 되는 것으로 분류된 잠재 음역 쌍들과 음역 쌍이 되지 않는 것으로 분류된 잠재 음역 쌍들을 포함할 수 있다. 분류 모델은 SVM를 사용할 수 있다.
본 명세서에서 설명된 주제의 특정 실시예들은 후술하는 이점 중 하나 이상을 실현하기 위해 구현될 수 있다. 앵커 텍스트를 사용하여 음역 쌍을 자동적으로 식별하는 단계는, (ⅰ) 주석이 달린 훈련 데이터의 사용을 감소 또는 배제하고, (ⅱ) 언어 특정적 규칙 및 데이터(예를 들어, 병렬 훈련 데이터)의 사용을 감소 또는 배제함으로써, 식별의 유연성(flexibility)과 범위를 증가시킨다. 그 결과, 식별되는 음역 쌍(예를 들어, 사전에서)의 개수가 증가될 수 있고, 그로 인해 입력 텍스트에 있는 음역 쌍들을 식별하는 것에 대한 정밀도, 리콜(recall), 및 정확도가 향상된다.
본 명세서에 설명된 주제에 대한 하나 이상의 실시예의 자세한 설명은, 첨부 도면과 하기 설명으로 설명된다. 주제에 대한 다른 특징들, 양태들, 및 이점은 상세한 설명, 도면, 및 청구항으로부터 명확해질 것이다.
도 1은 예시적 음역 쌍들을 나타낸다.
도 2는 앵커 텍스트를 사용하여 음역 쌍들을 자동으로 식별하는 예시를 도시한 블록도이다.
도 3은 예시적 잠재 음역 쌍과 그 음역 쌍에 상응하는 편집들을 포함한다.
도 4는 앵커 텍스트를 사용하여 음역 쌍을 자동으로 식별하는 예시적 프로세스를 나타내는 순서도이다.
도 5는 일반적인 컴퓨터 시스템의 개략도이다.
여러 도면에 있는 유사한 참조 부호는 유사한 구성 요소들을 가르킨다.
도 1은 예시적 음역 쌍을 나타낸다. 음역 쌍은 예를 들어, 제1 문자 체계로서 표시된 제1 단어와 제2 문자 체계로 표시된 제2 단어를 포함할 수 있다. 제1 문자 체계와 제2 문자 체계는 동일한 언어 또는 다른 언어를 표현하기 위해 사용될 수 있다. 예를 들어, 제1 및 제2 문자 체계는 일본어를 표현하기 위해서 사용되는 문제 체계인 카타카나와 칸지일 수 있다. 다른 예시에서, 제1 및 제2 문자 체계는 다른 언어를 표현하기 위해 사용되는 문자 체계인 라틴어와 칸지일 수 있다. 이에 더하여, 음역 쌍에 있는 각 음역은 임의의 길이의 텍스트를 포함할 수 있고, 예를 들어 음역은 단일 문자 또는 구(phrase)일 수 있다.
음역들은 복수의 변형을 가질 수 있다. 즉, 제2 문자 체계로 표시된 단어의 음역에 대한 제1 문자 체계로 된 여러 표시들이 있을 수 있다. 예를 들어, 도 1은 영어 단어 "saxophone"의 라틴어 표시에 대한 3개의 카타카나 음역
Figure 112011026443342-pct00001
Figure 112011026443342-pct00002
을 포함한다.
주석이 달린 훈련 데이터 또는 언어 특정적 규칙들을 사용함으로써, 예를 들어 음역 쌍들을 식별하기 위한 분류 모델(예를 들어, 분류자를 사용함)을 훈련시키기 위해 사용될 수 있는 훈련 데이터의 양을 제한할 수 있다. 그 결과, 음역의 모든 변형이 식별될 가능성이 감소될 수 있다. 그러나, 분류 모델을 훈련시키기 위해 앵커 텍스트를 사용함으로써 유용한 훈련 데이터(예를 들어, 사용될 수 있는 앵커 텍스트를 포함하는 임의 리소스)의 양을 증가시킬 수 있고, 그로 인해 음역의 모든 변형이 상기 분류자에 의해 학습될 가능성이 증가된다.
도 2는 앵커 텍스트를 사용하여 음역 쌍들을 자동으로 식별하는 예시를 도시한 블록도이다. 도 2는 하나 이상의 리소스(210)를 포함한다. 하나 이상의 리소스(210)는 예를 들어, 웹 페이지, 스프레드시트, 이메일, 블로그, 및 인스턴트 메시지(IM) 스크립트일 수 있다. 하나 이상의 리소스(210)는 앵커 텍스트를 포함할 수 있다.
앵커 텍스트는 예를 들어, URL(Uniform Resource Locator)에 의해 식별되는 리소스(예를 들어, 웹 페이지)에 연결되는 텍스트이다. 일부 구현예들에서, 앵커 텍스트는 리소스에서 특정 위치(예를 들어, 웹 페이지상의 위치)에 연결될 수 있다. 앵커 텍스트는 리소스에 관련된 문맥 정보(contextual information)를 제공할 수 있다. 일부 실시예들에서, 앵커 텍스트는 연관된 URL의 실제 텍스트(actual text)에 관련될 수 있다. 예를 들어, GoogleTM 웹 사이트에 대한 하이퍼링크가 아래와 같이 표시될 수 있다.
Figure 112011026443342-pct00003
이 예시에서, 하이퍼링크는 웹페이지에서 Google로 디스플레이된다.
일부 구현예들에서, 앵커 텍스트는 연관된 URL의 실제 텍스트에 관련되지 않을 수도 있다. 예를 들어, GoogleTM 웹 사이트에 대한 하이퍼링크가 아래와 같이 표시될 수 있다.
Figure 112011026443342-pct00004
이 예시에서, 하이퍼링크는 웹페이지에서 search engine으로 디스플레이된다.
앵커 텍스트가 리소스에 관련된 문맥 정보를 포함할 수 있기 때문에, 같은 리소스를 식별하는 서로 다른 앵커 텍스트는 음역 쌍들을 식별하기 위하여 주석이 달리지 않은 훈련 데이터로서 사용될 수 있다. "search engine"이 "Google"에 대한 음역은 아니지만, 앵커 텍스트의 다른 예시들이 음역들로서 동일한 문맥 정보를 제공할 수 있다.
예를 들어, GoogleTM 웹 사이트에 대한 다른 하이퍼링크가 아래와 같이 표시될 수 있다.
Figure 112011026443342-pct00005
이 예시에서, 하이퍼링크는 웹페이지에서 谷歌로 디스플레이된다. 谷歌는 중국어로 "Google"에 대한 음역이다.
다른 예시에서, 웹 페이지는 앵커 텍스트
Figure 112011026443342-pct00006
("personal care"에 대한 카타카나 음역)을 포함할 수 있고, 영어 웹사이트는 다른 앵커 텍스트 personal care를 포함할 수 있으며, 다른 앵커 텍스트 모두는 동일한 웹 페이지(예를 들어, 개인 건강에 관한 웹 페이지)에 연결된다.
도 2로 돌아와서, 리소스(210)로부터 앵커 텍스트(220)가 추출될 수 있다. GoogleTM 웹 사이트에 연결된 앵커 텍스트에 관한 상술한 예시들에서 설명한 것처럼, 앵커 텍스트의 추출된 샘플들은 동일한 문자 체계로 된 것일 수 있고, 따라서 음역 쌍들이 될 수 없다. 또한, 동일한 리소스 또는 위치에 연결되지 않는 앵커 텍스트의 추출된 샘플들은, 동일한 리소스 또는 위치에 연결된 샘플들보다 문맥 정보에 관련될 가능성이 작다. 특히, 앵커 텍스트의 이러한 추출된 샘플들은 동일한 문맥 정보일 가능성이 없다. 따라서, 잠재 음역 쌍들(230; 예를 들어 음역 쌍 후보들)은, 다른 문자 체계로 표시되고 또한 동일 리소스 또는 위치에 연결되는 앵커 텍스트의 샘플들을 식별함으로써 판단될 수 있다. 각 잠재 음역 쌍은 제1 문자 체계로 된 제1 앵커 텍스트와 제2 문자 체계로 된 제2 앵커 텍스트를 포함한다.
리소스(210)로부터 앵커 텍스트(220)를 추출하는 동안, 그 추출된 앵커 텍스트에 관련된 다양한 통계 자료들이 수집될 수 있다. 예를 들어, 리소스 내에서 텍스트의 빈도(예를 들어, 총수)가 판단될 수 있는데, 상기 텍스트는 리소스 또는 위치에 연결되지 않지만 앵커 텍스트와 동일하다. 하나 이상의 문자 체계에서 발생하고 동일한 리소스 또는 위치에 연결되는 앵커 텍스트(예를 들어, 잠재 음역 쌍으로 발생함)의 빈도도 판단될 수 있다. 또한, 단일 문자 체계에서만 발생하는 앵커 텍스트의 빈도가 판단될 수 있다.
복수의 앵커 텍스트로부터 하나 이상의 잠재 음역이 판단될 수 있다. 하나 이상의 이러한 빈도는 동일한 리소스 또는 위치를 식별하는 텍스트와 함께 잠재 음역이 발생할 가능성을 계산하는데 사용될 수 있다. 일부 구현예에서, 동시발생 가능성(likelihood of co-occurrence)은 로그 최우비(log-likelihood ratio)를 사용하여 계산될 수 있다. 또한, 앵커 텍스트의 발생과 관련된 다른 통계 자료가 수집될 수 있고, 그 통계 자료는 잠재 음역 쌍이 음역 쌍일 가능성을 계산하기 위하여 사용될 수 있다. 잠재 음역 쌍들은 하나 이상의 잠재 음역으로부터 식별될 수 있다. 하나 이상의 잠재 음역은, 하나 이상의 잠재 음역이 동일한 리소스 또는 위치를 식별하는 텍스트와 함께 발생할 가능성에 기초하여 정렬될 수 있다. 이 가능성 판단을 사용함으로써, 시스템은 임의의 언어 또는 문자 체계로 된 훈련 데이터에서 잠재 음역 쌍들을 식별할 수 있고, 예를 들어 상기 시스템은 언어/문자 독립 체계(language/writing system-independent)일 수 있다.
잠재 음역 쌍(230)을 식별한 후에, 각 잠재 음역 쌍에 점수가 부여될 수 있다. 특히, 분류 모델(240)은 분류기(예를 들어, SVM)를 사용하여 생성될 수 있다. 하기에서 보다 자세하게 설명되는 것처럼, 분류 모델(240)은 각 잠재 음역 쌍에 점수를 부여하기 위하여 사용될 수 있다. 개관적(overview)으로, 분류 모델(240)은 음역 쌍들의 특징과 각 특징들에 상응하는 특징 가중치를 포함한다. 특징들은 잠재 음역 쌍에 매치될 수 있고, 상응하는 특징 가중치들은 잠재 음역 쌍에 대한 분류 점수를 마련하기 위해 합산될 수 있다.
각 잠재 음역 쌍은 음역 쌍이 되는 것 또는 음역 쌍이 되지 않는 것으로 초기 분류된다. 일부 구현예들에서, 각 잠재 음역 쌍은 제1 앵커 텍스트와 제2 앵커 텍스트 간의 편집 거리에 기초하여 초기 분류될 수 있다. 편집 거리는 예를 들어, 제1 앵커 텍스트를 제2 앵커 텍스트로 변환시키기 위해 사용될 수 있는 동작들의 개수로 정의될 수 있다.
잠시 도 3을 참조하면, 예시적 잠재 음역 쌍과 그 잠재 음역 쌍에 상응하는 편집들이 도시되어 있다. 음역 쌍은 제1 문자 체계로 된 제1 앵커 텍스트(예를 들어, "sample")와 제2 문자 체계로 된 제2 앵커 텍스트(예를 들어,
Figure 112011026443342-pct00007
)를 포함한다. 편집 거리가 판단되기 전에, 제1 앵커 텍스트와 제2 앵커 텍스트가 처리될 수 있다. 일부 실시예들에서, 제1 앵커 텍스트와 제2 앵커 텍스트는 공통 문자 체계(common writing system)로 변환된다. 예를 들어,
Figure 112011026443342-pct00008
는 "sanpuru"(예를 들어, 표음적 철자)로 변환되어, 제1 앵커 텍스트와 변환된 제2 앵커 텍스트 모두 라틴어 문자를 포함할 수 있다. 일부 구현예들에서, 제1 앵커 텍스트와 변환된 제2 앵커 텍스트 모두가 정규화된다. 예를 들어, "sample"과 "sanpuru"는 "SAMPLE"과 "SANPURU"를 생성하기 위하여 대문자화될 수 있다. 정규화는 제1 앵커 텍스트와 변환된 제2 텍스트의 배열을 용이하게 하기 위해 사용될 수 있다.
상기 처리 후에, 제1 앵커 텍스트와 변환된 제2 앵커 텍스트는, 제1 앵커 텍스트와 제2 변환된 제2 앵커 텍스트 각각으로부터의 하나 이상의 편집과 편집 거리를 판단하기 위해 배열될 수 있다. 배열하는 동안, 제1 앵커 텍스트로부터의 문자들이 변환된 제2 앵커 텍스트로부터의 문자들에 매치될 수 있다. 다른 실시예들에서, 문자들은 제1 앵커 텍스트에 있는 하나 이상의 문자가 제2 앵커 문자에 있는 하나 이상의 문자들과 함께 발생할 통계적 가능성에 기초하여 매치될 수 있다. 예를 들어, 동시 발생 가능성들은 다이스 계수(Dice coefficient)에 의해 측정될 수 있다. 일부 실시예들에서, 자음 지도(consonant map)들이 배열 처리를 보다 세밀화하기 위하여 사용될 수 있다.
일부 구현예들에서, 배열이 수행되어 편집 거리가 최소화될 수 있다. 도 3으로 돌아와서, "SAMPLE"의 문자들이 6개의 동작으로 "SANPURU"의 문자에 매치될 수 있다. 특히, 이 동작들은 (1) "S"를 "S"에 매치하는 것, (2) "A"를 "A"에 매치하는 것, (3) "M"을 "N"에 매치하는 것, (4) "P"를 "PU"에 매치하는 것, (5) "L"을 "R"에 매치하는 것, (6) "E"를 "U"에 매치하는 것을 포함한다. 6개의 동작이 제1 앵커 텍스트를 변환된 제2 앵커 텍스트에 맞춰 배열하기 위해 사용되기 때문에, 그 편집 거리는 6이다. 일부 구현예들에서, 비가중된(unweight) 편집 거리가 최소화된다. 일부 구현예들에서는, 편집 거리가 가중될 수 있고, 가중된 편집 거리가 최소화된다. 다른 구현예들도 가능하다.
상기 예시적 배열에서, 제1 앵커 텍스트와 변환된 제2 앵커 텍스트 각각에 대한 6개의 편집이 식별된다. 라틴어에 연관된 편집들은 특징 "S_S", "A_A", "M_N", "P_PU", "L_R", 및 "E_U"로서 표시될 수 있다. 글자간의 밑줄 표시는 변환된 제2 앵커 텍스트로부터의 문자에 대해 제1 앵커 텍스트로부터의 문자들을 구별하기 위해 사용될 수 있다. 카타카나에 연관된 편집들은 특징 "S_S", "A_A", "N_M", "PU_P", "R_L", 및 "U_E"로서 표시될 수 있다. 각 편집들은 분류 모델(240)에 있는 특징들에 연관될 수 있다. 예를 들어, "P_PU"는 라틴어에 연관된 잠재 음역 쌍의 특징일 수 있다. 대안적으로, "PU_P"는 카타카나에 연관된 잠재 음역 쌍의 특징일 수 있다.
일부 구현예들에서, 잠재 음역 쌍에 있는 앵커 텍스트의 선두 또는 말미에 상응하는 특징들이, 잠재 음역 쌍에 있는 앵커 텍스트의 선두에 대한 특징과 잠재 음역 쌍에 있는 앵커 텍스트의 말미에 대한 특징으로서 지시될 수 있다. 예를 들어, 특징 "S_S"는 "^S_^S"로 표시될 수 있고, 여기서 접두사 "^"는 이 특징이 잠재 음역 쌍에 있는 앵커 텍스트의 선두에서 발생하는 문자들을 표시한다는 것을 나타낸다. 이에 더하여, 특징 "E-U"는 "E$_E$"로 표시될 수 있고, 접미사 "$"는 이 특징이 잠재 음역 쌍에 있는 앵커 텍스트의 말미에서 발생한 문자들을 표시한다는 것을 나타낸다.
이러한 지시들은 잠재적 후보 쌍들과 특징들을 비교하는 동안에 사용되어, 잠재적 후보 쌍들의 선두과 말미만이 적절한 특징들에 비교(예를 들어, 선두 특징과 말미 특징에 대해 개별적으로)될 수 있게 한다. 그 결과, 적절한 특징 가중치들이 분류 점수를 계산하기 위해 사용될 수 있다. 다른 구현예들도 가능하다. 예를 들어, 다른 문자들(예를 들어, 구획 문자(delimiter)들)이 분리 기호, 접두사, 및 접미사로 사용될 수 있다.
일부 구현예들에서, 공란 편집(empty edit)들이 존재하지 않도록 하기 위해, 배열이 수행될 수 있다. 초기 배열 후에, 인접 편집들이 함께 그룹화되어, 공란 측에 편집들이 없게 한다. 예를 들어, 제1 앵커 텍스트 "TOP"은 변환된 제2 앵커 텍스트 "TOPPU"(
Figure 112011026443342-pct00009
)에 맞춰 배열될 수 있다. 초기에, 배열은 후술하는 특징들 "T_T", "O_O", "P_P", "<null>_P", 및 "<null>_U"를 만들 수 있는데, 여기서 <null>은 공란 편집을 표시한다. 이 배열은, 인접 특징들 "<null>_P"와 <null>_U"가 "<null>_PU"를 만들기 위해 결합되고, 이어 "P_P"와 "<null>_PU"가 P_PPU"를 만들기 위해 결합되도록 수행될 수 있다. 그 결과, 최종 배열은 특징들 "T_T", "O_O", 및 "P_PPU"를 만든다.
배열되는 동안, 통계 자료가 수집될 수 있고, 그 통계 정보는 잠재 음역 쌍이 음역 쌍이 될 가능성을 계산하기 위해 사용될 수 있다. 예를 들어, 제1 앵커 텍스트와 변환된 제2 앵커 텍스트 각각에 있는 자음 개수에 대한 총수가 판단될 수 있다. 또한, 제1 앵커 텍스트와 변환된 제2 앵커 텍스트 각각에 있는 모음 개수에 대한 총수가 판단될 수 있다. 상기 총수 간에 차(difference)가 계산될 수 있다. 제1 앵커 텍스트와 변환된 제2 앵커 텍스트 간의 상기 차는, 잠재 음역 쌍이 음역 쌍일 가능성을 계산하기 위해 사용될 수 있다.
잠재 음역 쌍에 대한 편집 거리가 판단된 후에, 편집 거리는 임계값에 비교된다. 일부 구현예들에서, 임계값은 제1 앵커 텍스트의 길이와 제2 앵커 텍스트의 길이보다 적다. 만약 편집 거리가 임계값보다 크면, 잠재 음역 쌍은 음역 쌍이 되지 않는 것으로 분류될 수 있다. 임계값 이하이면, 잠재 음역 쌍은 음역 쌍이 되는 것으로 분류될 수 있다. 도 3에 도시된 예시로 돌아와서, 편집 거리는 6이고, "SAMPLE"과 "SANPURU"의 길이는 각각 6과 7이다. 따라서, 임계값이 6이면, "sample"과 "
Figure 112011026443342-pct00010
"는 초기에 음역 쌍이 되는 것으로 분류될 수 있다. 다른 구현예들도 가능하다. 예를 들어, 초기 분류는 배열하는 동안 판단된 임의의 통계 자료에 기초할 수 있다. 다른 예시로서, 만약 편집 거리가 임계값 미만이면, 잠재 음역 쌍은 음역 쌍이 되지 않는 것으로 분류될 수 있다.
일부 구현예들에서, 모든 잠재 음역 쌍은 음역 쌍이 되는 것 또는 음역 쌍이 되지 않는 것 중 하나로 초기 분류된 후에, 잠재 음역 쌍들은 정렬된다. 잠재 음역 쌍들은 각 잠재 음역 쌍이 음역 쌍이 될 가능성에 따라 정렬될 수 있다. 예를 들어, 각 잠재 음역 쌍이 음역 쌍이 될 로그 최우비가 예를 들어, 추출과 배열 동안에 획득된 통계 자료(예를 들어, 빈도수와 총수)를 사용하여 계산될 수 있다. 정렬된 잠재 음역 쌍들의 서브세트는 분류 모델(240)을 생성(예를 들어, 훈련)하기 위해 사용될 수 있다. 예를 들어, 음역 쌍들이 될 가능성이 가장 높고(예를 들어, 상위 1%) 음역 쌍들이 되는 것으로 초기 분류된 잠재 음역 쌍들이 추출될 수 있다. 이 쌍들은 음역 쌍들의 샘플들을 표시하기 위해 사용될 수 있다. 이에 더하여, 음역 쌍들이 될 가능성이 가장 낮고(예를 들어, 하위 1%) 음역 쌍들이 되지 않는 것으로 초기 분류된 잠재 음역 쌍들이 추출될 수 있다. 이 쌍들이 음역 쌍이 아닌 샘플들을 나타내기 위해 사용될 수 있다. 이러한 샘플들은 분류 모델(240)을 훈련하기 위해 사용될 수 있다.
음역 쌍들의 샘플들, 음역 쌍이 아닌 샘플들, 및 특징들이 분류 모델(200, 예를 들어 각 특징들에 대한 특징 가중치)를 생성하기 위해 사용될 수 있다. 일부 구현예들에서, 단순 선형 SVM이 이 데이터들을 사용하여 훈련될 수 있다. 특히, 음역 쌍들의 샘플들은 제1 클래스(예를 들어, 음역 쌍들인 데이터 포인트들의 클래스)에 대한 데이터 포인터들로서 사용될 수 있다. 음역 쌍들이 아닌 샘플들은 제2 클래스(예를 들어, 음역 쌍들이 아닌 데이터 포인트)들의 클래스에 대한 데이터 포인트들로서 사용될 수 있다. 초평면(hyperplane; 예를 들어 최대 마진 초평면)이 판단될 수 있고, 이 초평면은 데이터 포인터들을 그들의 개별 클래스로 분류하고, 그 초평판에서 가장 근접한 데이터 포인터까지의 거리를 최대화한다. 다른 구현예들도 가능하다. 예를 들어, 상기 데이터가 선형 판별 분석 기법(linear discriminant analysis) 또는 나이브 베이스 분류기(
Figure 112011026443342-pct00011
Bayes classifier )를 사용하여 생성 모델(generative models)들을 훈련하거나, 회귀 분석(logistic regression) 또는 지각(perception)을 사용하여 분류 모델(discriminative models)들을 훈련하기 위해 사용될 수 있다.
각 특징에 대한 특징 가중치는 특징을 포함하는 샘플들에 기초하여 계산될 수 있다. 예를 들어, 특징 가중치는 제1 클래스에 있는 샘플에 포함된 특징들에 대하여 증가될 수 있다. 다른 예시로서, 특징 가중치는 제2 클래스에 있는 샘플에 포함된 특징들에 대하여 감소될 수 있다. 만약 특징이 제1 및 제2 클래스 모두에 있는 샘플들에서 나타난다면, 중립 특징 가중치(예를 들어, 0)이 할당될 수 있다. 이 예시적 약정을 사용함으로써, 더 높은 분류 점수가 더 좋은 잠재 음역 쌍(예를 들어, 더 좋은 음역 쌍 후보)을 나타낼 수 있다.
잠재 음역 쌍에 있는 특징들에 상응하는 특징 가중치들은 그 잠재 음역 쌍에 대한 분류 점수를 마련하기 위하여 합산될 수 있다. 분류 점수에 기초하여, 앵커 텍스트로부터 처음에 추출된 잠재 음역 쌍들이 음역 쌍이 되는 것 또는 되지 않는 것 중 하나로 분류될 수 있다. 상술된 예시적 약정을 사용함으로써, 만약 분류 점수가 음수이면, 예를 들어, 그 잠재 음역 쌍은 음역 쌍이 되지 않는 것으로 분류될 수 있다. 예를 들어 분류 점수가 양수이면, 잠재 음역 쌍은 음역 쌍이 되는 것으로 분류될 수 있다. 분류 점수 0은 중립 분류를 나타낼 수 있다.
도 3에 도시된 예시로 돌아가서, "sample"과
Figure 112011026443342-pct00012
을 포함하는 잠재 음역 쌍은 분류 모델에 있는 특징들에 비교될 수 있고, 그 특징들 "S-S", "A_A", "N_M", "PU_P", 및 "R_L"을 받을 수 있다. 받은 특징들에 상응하는 특징 가중치들은 그 잠재 음역 쌍에 대한 분류 점수를 마련하기 위하여 합산될 수 있고, 그 분류 점수는 잠재 음역 쌍을 분류하기 위해 사용될 수 있다.
일부 구현예들에서, 음역 쌍들에 대한 자동 인식의 정확도와 정밀도를 향상하기 위해 추가 세밀화(refinement)들이 수행될 수 있다. 예를 들어, 후술하는 세밀화 규칙들이 사용될 수 있다. 제1 문자 체계와 연관된 하나 이상의 편집(예를 들어, "S-S", "A_A", "N_M", "PU_P", 및 "R_L")에 대하여, 잠재 음역 쌍들이 음역 쌍이 될 가능성(예를 들어 로그 최우비를 사용하여)에 기초하여 잠재 음역 쌍들을 다시 정렬할 수 있다. 만약 잠재 음역 쌍에 상응하는 분류 점수가 음수이면, 그 잠재 음역 쌍은 음역 쌍이 되지 않는 것(예를 들어, 부(negative) 후보(242))으로 재분류될 수 있다. 잠재 음역 쌍이 음역 쌍으로 될 가능성이 가장 높고, 잠재 음역 쌍에 상응하는 분류 점수가 양수이면, 잠재 음역 쌍은 최적 잠재 음역 쌍(예를 들어, 최적 후보(244))으로 재분류될 수 있다. 잠재 음역 쌍과 최적 잠재 음역 쌍 간의 제2 편집 거리가 판단될 수 있고, 잠재 음역 쌍은 잠재 음역 쌍의 제2 편집 거리가 제2 임계값 미만이고 잠재 음역 쌍에 상응하는 분류 점수가 양수이면, 그 잠재 음역 쌍은 음역 쌍이 되는 것(예를 들어, 정(positive) 후보(246))으로 재분류될 수 있다. 잠재 음역 쌍의 제2 편집 거리가 제2 임계값보다 크면, 잠재 음역 쌍은 음역 쌍이 되지 않는 것으로 재분류될 수 있다.
일부 구현예들에서, 일부 세밀화 규칙들이 제2 문자 체계에 연관된 하나 이상의 편집(예를 들어, 특징들 "S_S", "A_A", "N_M", PU_P", "R_L", 및 "U_E"에 연관된 편집들)에 대해서도 수행될 수 있다. 이러한 및 다른 구현예들에서, 이전 세밀화에서 잠재 음역 쌍이 되지 않는 것으로 재분류된 잠재 음역 쌍들은, 이 세밀화 동안에 재분류되지 않는다. 일부 구현예들에서, 상술한 바와 같이 분류 모델에 대한 추가 세밀화들이 분류 모델(240)을 훈련시키기 위해 사용되는 단계들에 대해 한번 이상의 반복 수행함으로써 이루어질 수 있다.
일부 실시예들에서는, 초기 분류 모델(240; 예를 들어 이전 분류 모델)이 생성되고, 세밀화된 후에, 분류 모델(240)이 입력 텍스트에 있는 음역 쌍들을 식별하기 위해 사용될 수 있다. 특히, 입력 텍스트는 분류 모델(240)에 있는 특징들에 비교될 수 있고, 음역 쌍들은 상술된 기술들을 사용하여 식별될 수 있다. 이에 더하여, 분류 모델(240)이 생성되면, 식별된 음역 쌍들의 세트(예를 들어, 음역 쌍들로 식별된 잠재 음역 쌍들)가 생성된다.
도 4는 앵커 텍스트를 사용하여 음역 쌍들을 자동적으로 식별하는 예시적 프로세스(400)를 나타내는 순서도이다. 상기 방법은 복수의 앵커 텍스트를 포함하는 복수의 리소스를 수신하는 단계(400)를 포함한다. 예를 들어, 앵커 텍스트(220)를 포함하는 리소스들(210)은 추출 엔진에 의해 수신될 수 있다. 일부 실시예들은, 하나 이상의 잠재 음역이 복수의 앵커 텍스트로부터 판단될 수 있다. 하나 이상의 음역은, 하나 이상의 잠재 음역이 동일한 리소스 또는 위치를 식별하는 텍스트와 함께 발생할 가능성에 기초하여 정렬될 수 있다. 하나 이상의 잠재 음역 쌍이 하나 이상의 잠재 음역으로부터 식별될 수 있다. 각 잠재 음역 쌍은 제1 문자 체계로 된 제1 앵커 텍스트와 제2 문자 체계로 된 제2 앵커 텍스트를 포함하고, 제2 앵커 텍스트와 제1 앵커 텍스트는 동일한 리소스를 식별한다.
각 잠재 음역 쌍은 음역 쌍이 되는 것 또는 음역 쌍이 되지 않는 것으로 분류될 수 있다(420). 예를 들어, 분류 엔진이 이 분류를 수행할 수 있다. 제1 앵커 텍스트가 제2 앵커 텍스트에 맞춰 배열될 수 있다(430). 예를 들어, 배열 엔진이 상기 배열을 수행할 수 있다. 하나 이상의 편집이 상기 배열로부터 추출될 수 있다(440). 예를 들어, 추출 엔진 또는 배열 엔진이 상기 추출을 수행할 수 있다. 하나 이상의 편집과 분류된 잠재 음역 쌍들의 서브세트에 기초하여, 분류 모델이 생성될 수 있다(450). 이 서브세트는 음역 쌍이 되는 것으로 분류된 잠재 음역 쌍들과 음역 쌍이 되지 않는 것으로 분류된 잠재 음역 쌍들을 포함할 수 있다. 분류 모델을 사용하여, 음역 쌍들이 잠재 음역 쌍들로부터 식별될 수 있다(460). 예를 들어, 분류 엔진이 상기 분류 모델을 생성하고, 음역 쌍들을 식별할 수 있다.
도 5는 일반적인 컴퓨터 시스템(500)에 대한 개략도이다. 시스템(500)은 상술된 기술들(예를 들어, 프로세스 400)과 연관되어 설명된 동작들을 실행하기 위하여 사용될 수 있다. 시스템(500)은 프로세서(510), 메모리(520), 저장 디바이스(530), 및 입력/출력 디바이스(540)를 포함한다. 각 구성요소(510, 520, 530, 및 540)는 시스템 버스(850)를 사용하여 서로 접속된다. 프로세서(510)는 시스템(500)내의 실행을 위한 명령어들을 처리할 수 있다. 예를 들어, 상기와 같이 실행되는 명령어들은 도 2에서와 같이, 앵커 텍스트를 사용하여 음역 쌍들을 자동적으로 식별하기 위하여, 시스템의 하나 이상의 구성 요소를 구현할 수 있다. 일 구현예에서, 프로세서(510)는 단일-스레드 프로세서(single-threaded processor)이다. 다른 구현예에서, 프로세서(510)는 다중-스레드 프로세서(multi-threaded processor)이다. 프로세서(510)는 입력/출력 디바이스(540) 상에 사용자 인터페이스를 위한 그래픽 인터페이스를 디스플레이하기 위해, 메모리(520) 또는 저장 디바이스(530)에 저장된 명령어들을 처리할 수 있다.
메모리(520)는 시스템(500) 내에 정보를 저장하는 예컨대, 휘발성 또는 비휘발성 컴퓨터 판독 가능 매체(computer readable medium)이다. 메모리(520)는 예를 들어, 잠재 음역 쌍들(230)과 분류 모델(240)을 저장할 수 있다. 저장 디바이스(530)는 시스템(500)을 위한 영구 저장 장치(persistent storage)를 제공할 수 있다. 저장 디바이스(530)는 플로피 디스크 디바이스, 하드 디스크 디바이스, 광 디스크 디바이스, 또는 테잎 디바이스, 또는 다른 적절한 영구 저장 수단들을 포함할 수 있다. 입력/출력 디바이스(540)는 시스템(500)을 위한 입력/출력 동작들을 제공한다. 일 구현예에서, 입력/출력 디바이스(540)는 키보드 및/또는 포인팅 디바이스를 포함한다. 다른 구현예에서, 입력/출력 디바이스(540)는 그래픽 사용자 인터페이스를 위한 디스플레이 유니트를 포함한다.
입력/출력 디바이스(540)는 도 2에 도시된 것처럼 앵커 텍스트를 사용하여 음역 쌍들을 자동적으로 식별하기 위하여, 시스템을 위한 입/출력 동작들을 제공할 수 있다. 세그먼트 시스템은 앵커 텍스트를 사용하여 음역 쌍들을 자동적으로 식별하기 위해 컴퓨터 소프트웨어 구성 요소들을 포함할 수 있다. 이러한 소프트웨어 구성 요소의 예에는 리소스들로부터 앵커 텍스트를 추출하는 추출 엔진, 잠재 음역 쌍을 배열하는 배열 엔진, 잠재 음역 쌍들을 분류하는 분류 엔진을 포함할 수 있다. 이러한 소프트웨어 구성 요소들은 저장 디바이스(530), 메모리(530) 내에서 상주하거나, 네트워크 연결 등을 통해 얻어질 수 있다.
본 명세서에서 설명된 많은 예시들이 영어-일본어(예를 들어, 라틴어-카타카나) 음역들을 예시하였지만, 설명된 주제와 기능 동작들에 대한 실시예들이 문자 체계 및 언어들의 다른 결합들을 위하여 구현될 수 있다. 예를 들어, 음역 쌍들은 영어(예를 들어, 라틴어 문자)와 한국어(예를 들어, 한글) 앵커 텍스트로부터 추출될 수 있다. 다른 예시로서, 음역 쌍들은 힌디어(예를 들어, 데바나가리 문자) 및 러시아어(예를 들어, 키릴 문자) 앵커 텍스트로부터 추출될 수 있다.
이에 더하여, 일부 실시예에서는, 텍스트의 다른 유형들(예를 들어, 샘플들)이 분류 모델을 훈련시키기 위해 사용될 수 있다. 예를 들어, 단일 문자 체계에 있는 단어의 발음 변형들이 분류 모델을 훈련하기 위해 사용될 수 있다. 다른 예시로서, 단일 문자 체계에 있는 철자 변형들이 분류 모델을 훈련하기 위해 사용될 수 있다. 다른 구현예들도 가능하다.
본 명세서에 기재된 주제와 기능적 동작들의 실시예들은 디지털 전자 회로로 구현되거나, 또는 상세한 설명에 기재된 구조 및 그들의 구조적 등가물을 포함하는 컴퓨터 소프트웨어, 펌웨어, 또는 하드웨어로 구현되거나, 또는 이들 중 하나 이상의 조합으로 구현될 수 있다. 본 명세서에 기재된 주제의 실시예들은 하나 이상의 컴퓨터 프로그램 제품, 즉, 데이터 프로세싱 장치에 의해 실행되거나 또는 그 장치의 동작을 제어하도록, 유형의 프로그램 운반체(carrier)에 부호화된 컴퓨터 프로그램 명령의 하나 이상의 모듈로서 구현될 수 있다. 유형의 프로그램 운반체는 컴퓨터 판독가능 매체일 수 있다. 컴퓨터 판독가능 매체는 기계 판독가능 저장 디바이스, 기계 판독가능 저장 기판(substrate), 메모리 디바이스, 또는 이들 중 하나 이상의 조합일 수 있다.
"데이터 프로세싱 장치"라는 용어는 데이터를 처리하기 위한 모든 장치, 디바이스 및 기계를 포괄하며, 예를 들어, 프로그래머블 프로세서, 컴퓨터 또는 복수의 프로세서나 컴퓨터를 포함한다. 장치는, 하드웨어 외에도, 당해 컴퓨터 프로그램에 대한 실행 환경을 생성하는 코드를 포함한다. 코드는 예를 들어, 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 시스템, 또는 이들 중 하나 이상의 조합을 구성한다.
컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 스크립트 또는 코드로도 알려짐)은 컴파일 또는 번역된(interpreted) 언어나 선언적 또는 절차적 언어를 포함하는 모든 형태의 프로그래밍 언어로 작성될 수 있으며, 독립형 프로그램이나 모듈, 컴포넌트, 서브루틴 또는 컴퓨터 환경에서 사용하기에 적합한 그 밖의 유닛을 포함하는 임의의 형태로도 배치될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 반드시 상응해야 하는 것은 아니다. 프로그램은 다른 프로그램 또는 데이터를 보유하는 파일의 일부에 저장되거나(예를 들어, 마크업 언어 문서 내에 저장되는 하나 이상의 스크립트), 당해 프로그램 전용의 단일 파일에 저장되거나, 또는 다수의 조화된(coordinated) 파일들(예를 들어, 하나 이상의 모듈, 서브프로그램, 코드의 부분을 저장하는 파일들)에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터에서, 또는 한 위치에 배치되거나 또는 다수의 위치에 걸쳐서 분산되고 통신 네트워크에 의해 접속된 다수의 컴퓨터에서 실행되도록 배치될 수 있다.
본 명세서에 설명된 프로세스와 논리 흐름은 하나 이상의 프로그래머블 프로세서에 의해 수행될 수 있고, 이 프로그래머블 프로세서는 입력 데이터에 작용하여 출력을 생성함으로써 기능들을 수행하는 하나 이상의 컴퓨터 프로그램들을 실행한다. 예를 들어, FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)과 같은 전용 논리 회로가 프로세스와 논리 흐름을 수행하거나, 장치를 구현할 수 있다.
컴퓨터 프로그램의 실행에 적합한 프로세서에는, 예를 들어, 범용 및 전용 마이크로프로세서, 및 임의 종류의 디지털 컴퓨터 중 하나 이상의 프로세서가 있다. 일반적으로, 프로세서는 판독 전용 메모리(ROM), 또는 랜덤 액세스 메모리(RAM), 또는 양자로부터 명령들과 데이터를 수신한다. 컴퓨터의 필수 구성요소는 명령들을 실행하는 프로세서, 및 명령들과 데이터를 저장하는 하나 이상의 메모리 디바이스이다. 일반적으로, 컴퓨터는 데이터를 저장하기 위한 하나 이상의 대용량 저장 디바이스(예를 들어, 자기 디스크, 광자기 디스크, 또는 광디스크)를 포함하거나, 또는 이 디바이스와 데이터를 송수신하기 위하여 동작적으로(operatively) 결합될 수 있다. 하지만 컴퓨터가 이러한 디바이스를 반드시 구비할 필요는 없다. 더욱이, 컴퓨터는 예를 들어, 모바일 전화기, 개인 정보 단말(PDA), 모바일 오디오 또는 비디오 재생기, 게임 콘솔, GPS(Global Positioning System) 수신기, 음성 언어 입력(spoken language input)을 갖는 디바이스 등과 같은 다른 디바이스에 내장될 수 있다. 스마트 폰이 음성 입력(예를 들어, 디바이스에 있는 마이크로 폰으로 말해진 사용자 쿼리)을 수용할 수 있는 음성 언어 입력을 갖는 디바이스의 한 예이다.
컴퓨터 프로그램 명령들과 데이터를 저장하기 적합한 컴퓨터 판독가능 매체에는, 예를 들어, 반도체 메모리 디바이스(예를 들어, EPROM, EEPROM, 플래시 메모리 디바이스); 자기 디스크(예를 들어, 내부 하드디스크, 착탈식 디스크); 광자기 디스크; 및 CD-ROM과 DVD-ROM 디스크를 포함하는 모든 형태의 비휘발성 메모리, 매체 및 메모리 디바이스가 있다. 프로세서와 메모리는 전용 논리 회로에 의해 보완되거나 또는 전용 논리 회로에 통합될 수 있다.
사용자와의 상호작용을 제공하기 위하여, 본 명세서에 설명된 주제의 실시예들은, 정보를 사용자에게 디스플레이하기 위한 디스플레이 디바이스(예를 들어, CRT(Cathode Ray Tube) 또는 LCD(Liquid Crystal Display) 모니터), 키보드 및 포인팅 디바이스(예를 들어, 마우스 또는 트랙볼)를 구비한 컴퓨터에 구현될 수 있다. 사용자는 키보드와 포인팅 디바이스를 사용하여 컴퓨터에 입력을 제공할 수 있다. 사용자와의 상호작용을 제공하기 위하여 다른 종류의 디바이스가 또한 사용될 수 있다. 예를 들어, 사용자에게 제공되는 피드백(feedback)은 예를 들어, 시각 피드백, 청각 피드백 또는 촉각 피드백인 임의 형태의 감각 피드백일 수 있고, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다.
본 명세서에 기술된 주제의 실시예들은, 예를 들어, 데이터 서버와 같은 백엔드(back-end) 구성요소를 구비하는 컴퓨팅 시스템; 또는 예를 들어, 애플리케이션 서버와 같은 미들웨어 구성요소를 구비하는 컴퓨팅 시스템; 또는 예를 들어, 사용자가 본 명세서에 설명된 주제의 구현예와 상호작용할 수 있는 그래픽 사용자 인터페이스 또는 웹브라우저를 구비한 클라이언트 컴퓨터와 같은 프론트엔드(front-end) 구성요소를 구비하는 컴퓨터 시스템; 또는 이러한 백엔드, 미들웨어 또는 프론트엔드 구성요소들의 임의 조합을 구비하는 컴퓨팅 시스템으로 구현될 수 있다. 시스템의 구성요소들은 디지털 데이터 통신의 임의 형태 또는 매체(예를 들어, 통신 네트워크)에 의해 서로 접속될 수 있다. 통신 네트워크의 예에는 근거리 네트워크(LAN)와 인터넷과 같은 광역 네트워크(WAN)가 포함된다.
컴퓨팅 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 보통 서로 떨어져 있으며, 일반적으로는 통신 네트워크를 통하여 상호작용한다. 클라이언트와 서버의 관계는 각각의 컴퓨터상에서 실행되고 상호 클라이언트-서버 관계를 갖는 컴퓨터 프로그램에 의하여 발생한다.
본 명세서가 다수의 특정한 구현 세부사항을 포함하고 있지만, 이는 발명의 범위나 청구할 사항의 범위에 대한 어떠한 제한으로서도 이해되어서는 안 되며, 특정 구현예의 특정한 실시예들에 고유할 수 있는 특징의 설명으로서 이해되어야 한다. 별개의 실시예들의 문맥으로 본 명세서에서 설명된 소정 특징은 조합되어 단일 실시예로 구현될 수 있다. 반대로, 단일 실시예의 문맥으로 설명된 다양한 특징은 복수의 실시예에서 별개로 구현되거나 어떤 적당한 하위 조합으로서도 구현 가능하다. 또한, 앞에서 특징이 소정 조합에서 동작하는 것으로서 설명되고 그와 같이 처음에 청구되었지만, 청구된 조합으로부터의 하나 이상의 특징은 일부 경우에 해당 조합으로부터 삭제될 수 있으며, 청구된 조합은 하위 조합이나 하위 조합의 변형으로 될 수 있다.
마찬가지로, 도면에서 특정한 순서로 동작을 묘사하고 있지만, 그러한 동작이 바람직한 결과를 얻기 위해, 도시한 특정 순서나 순차적인 순서로 수행되어야 한다거나, 설명한 모든 동작이 수행되어야 한다는 것을 의미하는 것은 아니다. 소정 환경에서, 멀티태스킹 및 병렬 프로세싱이 바람직할 수 있다. 또한, 상술한 실시예에 있어서 다양한 시스템 구성요소의 분리는 모든 실시예들에서 그러한 분리를 요구하는 것으로 이해해서는 안 되며, 설명한 프로그램 구성요소와 시스템은 단일 소프트웨어 제품으로 통합되거나 또는 복수의 소프트웨어 제품으로 패키지될 수 있다는 점을 이해해야 한다.
본 명세서에서 설명한 주제의 특정 실시예들이 기술되었다. 그 밖의 실시예들은 후술하는 청구범위 내에 속한다. 예를 들어, 청구항에 인용된 동작들은 상이한 순서로 수행될 수 있지만, 여전히 바람직한 결과를 달성한다. 하나의 예시로서, 첨부한 도면에 도시한 프로세스는, 바람직한 결과를 얻기 위해, 도시한 특정 순서나 순차적인 순서를 반드시 요구하는 것은 아니다. 소정 구현예에서, 멀티태스킹과 병렬 프로세싱이 바람직할 수 있다.
210: 리소스(들)
220: 앵커 텍스트
230: 잠재 음역 쌍(들)
240: 분류 모델
242: 부 후보
244: 최적 후보
246: 정 후보

Claims (22)

  1. 컴퓨터에 의해 구현되는 방법으로서,
    컴퓨터에서, 복수의 앵커 텍스트(anchor text)를 포함하는 복수의 리소스를 수신하는 단계;
    컴퓨터에서, 상기 복수의 앵커 텍스트로부터 하나 이상의 잠재 음역(potential transliteration)을 판단하는 단계;
    컴퓨터에서, 상기 하나 이상의 잠재 음역이 동일한 리소스 또는 위치를 식별하는 텍스트와 함께 발생할 가능성에 기초하여, 하나 이상의 잠재 음역을 정렬하는 단계;
    컴퓨터에서, 상기 하나 이상의 잠재 음역으로부터 하나 이상의 잠재 음역 쌍(potential transliteration pair)을 식별하는 단계―여기서, 각 잠재 음역 쌍은 제1 문자 체계(writing system)로 된 제1 앵커 텍스트와 제2 문자 체계로 된 제2 앵커 텍스트를 포함하고, 상기 제2 앵커 텍스트와 상기 제1 앵커 텍스트는 동일한 리소스 또는 위치를 식별함―;
    각 잠재 음역 쌍에 대하여,
    컴퓨터에서, 상기 제1 앵커 텍스트와 상기 제2 앵커 텍스트를 비교하는 단계; 및
    컴퓨터에서, 상기 비교에 기초하여, 상기 잠재 음역 쌍을 음역 쌍이 되는 것 또는 음역 쌍이 되지 않는 것으로 분류하는 제1 분류 단계;
    컴퓨터에서, 제1 분류된 잠재 음역 쌍들을 마련하기 위해, 상기 제1 식별된 잠재 음역 쌍들이 음역 쌍들이 될 가능성에 기초하여, 상기 제1 식별된 잠재 음역 쌍들을 제1 정렬하는 단계;
    컴퓨터에서, 상기 제1 정렬된 잠재 음역 쌍들의 서브세트를 식별하는 단계―상기 서브세트는 음역 쌍들이 되는 것으로 분류된 잠재 음역 쌍들과 음역 쌍들이 되지 않는 것으로 분류된 잠재 음역 쌍들을 포함함―;
    상기 서브세트에 있는 각 잠재 음역 쌍에 대하여,
    컴퓨터에서, 상기 제1 앵커 텍스트와 상기 제2 앵커 텍스트를 배열하는 단계; 및
    컴퓨터에서, 상기 배열로부터 하나 이상의 편집(edit)을 추출하는 단계―여기서 상기 하나 이상의 편집은 상기 제1 앵커 텍스트를 상기 제2 앵커 텍스트로 변환시키기 위한 하나 이상의 동작으로 구성됨―;
    컴퓨터에서, 상기 하나 이상의 편집과 상기 서브세트에 기초하여 분류 모델을 생성하는 단계; 및
    컴퓨터에서, 상기 분류 모델을 사용하여, 상기 제1 분류된 잠재 음역 쌍들 각각을 음역 쌍이 되는 것 또는 음역 쌍이 되지 않는 것으로 제2 분류하는 단계를 포함하는 것을 특징으로 하는 방법.
  2. 청구항 1에 있어서, 상기 제1 앵커 텍스트와 상기 제2 앵커 텍스트를 비교하는 단계는,
    상기 제1 앵커 텍스트와 상기 제2 앵커 텍스트 간의 제1 편집 거리(edit distance)를 판단하는 단계; 및
    상기 제1 편집 거리를 제1 임계값에 비교하는 단계를 포함하고,
    상기 배열은 상기 제1 편집 거리를 최소화하는 것에 기초하는 것을 특징으로 하는 방법.
  3. 청구항 2에 있어서, 상기 제1 임계값은 상기 제1 앵커 텍스트의 길이와 상기 제2 앵커 텍스트의 길이보다 작은 것을 특징으로 하는 방법.
  4. 청구항 3에 있어서, 상기 제1 편집 거리가 상기 제1 임계값보다 클 때 상기 잠재 음역 쌍은 음역 쌍이 되지 않는 것으로 분류되고, 상기 제1 편집 거리가 상기 제1 임계값 미만일 때 상기 잠재 음역 쌍은 음역 쌍이 되는 것으로 분류되는 것을 특징으로 하는 방법.
  5. 청구항 1에 있어서, 상기 분류 모델을 생성하는 단계는,
    상기 하나 이상의 편집 각각을 특징에 연관시키는 단계; 및
    각 특징에 대한 특징 가중치를 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
  6. 청구항 5에 있어서, 상기 제2 분류 단계는,
    상기 제1 분류된 잠재 음역 쌍들 각각에 대하여,
    상기 제1 분류된 잠재 음역 쌍을 상기 분류 모델에 있는 하나 이상의 특징에 비교하는 단계;
    상기 비교에 기초하여, 하나 이상의 특징 가중치를 판단하는 단계; 및
    분류 점수를 마련하기 위해 하나 이상의 특징 가중치를 합산하는 단계를 포함하는 것을 특징으로 하는 방법.
  7. 청구항 6에 있어서, 상기 제1 문자 체계에 연관된 하나 이상의 편집에 대하여,
    상기 제2 분류된 잠재 음역 쌍들이 음역 쌍들이 될 가능성에 기초하여, 상기 제2 분류된 잠재 음역 쌍들을 제2 정렬하는 단계; 및
    상기 제2 정렬된 잠재 음역 쌍 각각에 대하여,
    상기 제2 정렬된 잠재 음역 쌍에 상응하는 분류 점수가 상기 제2 정렬된 잠재 음역 쌍이 음역 쌍이 아닌 것을 나타낼 때, 상기 제2 정렬된 잠재 음역 쌍을 음역 쌍이 되지 않는 것으로 재분류하는 단계;
    상기 제2 정렬된 잠재 음역 쌍이 음역 쌍이 될 가장 높은 가능성을 갖고, 상기 제2 정렬된 잠재 음역 쌍에 상응하는 분류 점수가 상기 제2 정렬된 잠재 음역 쌍이 음역 쌍인 것을 나타낼 때, 상기 제2 정렬된 잠재 음역 쌍을 최적 잠재 음역 쌍으로 재분류하는 단계;
    상기 제2 정렬된 잠재 음역 쌍과 상기 최적 음역 쌍 간의 제2 편집 거리를 판단하는 단계;
    상기 제2 정렬된 잠재 음역 쌍의 제2 편집 거리가 제2 임계값 미만이고, 상기 제2 정렬된 잠재 음역 쌍에 상응하는 분류 점수가 상기 제2 정렬된 잠재 음역 쌍이 음역 쌍인 것을 나타낼 때, 상기 제2 정렬된 잠재 음역 쌍을 음역 쌍이 되는 것으로 재분류하는 단계; 및
    상기 제2 정렬된 잠재 음역 쌍의 제2 편집 거리가 상기 제2 임계값보다 클 때, 상기 제2 정렬된 잠재 음역 쌍을 음역 쌍이 되지 않는 것으로 재분류하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  8. 청구항 7에 있어서, 상기 제2 문자 체계에 연관된 하나 이상의 편집에 대하여,
    상기 재분류된 잠재 음역 쌍들이 음역 쌍들이 될 가능성에 기초하여, 상기 재분류된 잠재 음역 쌍들을 제3 정렬하는 단계; 및
    음역 쌍이 되는 것으로 분류된 제3 정렬된 잠재 음역 쌍 각각에 대하여,
    상기 제3 정렬된 잠재 음역 쌍에 상응하는 분류 점수가 상기 제3 정렬된 잠재 음역 쌍이 음역 쌍이 아닌 것을 나타낼 때, 상기 제3 정렬된 잠재 음역 쌍을 음역 쌍이 되지 않는 것으로 재분류하는 단계;
    상기 제3 정렬된 잠재 음역 쌍이 음역 쌍이 될 가장 높은 가능성을 갖고, 상기 제3 정렬된 잠재 음역 쌍에 상응하는 분류 점수가 상기 제3 정렬된 잠재 음역 쌍이 음역 쌍인 것을 나타낼 때, 상기 제3 정렬된 잠재 음역 쌍을 최적 잠재 음역 쌍으로 재분류하는 단계;
    상기 제3 정렬된 잠재 음역 쌍과 상기 최적 음역 쌍 간의 제3 편집 거리를 판단하는 단계;
    상기 제3 정렬된 잠재 음역 쌍의 제3 편집 거리가 제3 임계값 미만이고, 상기 제3 정렬된 잠재 음역 쌍에 상응하는 분류 점수가 상기 제3 정렬된 잠재 음역 쌍이 음역 쌍인 것을 나타낼 때, 상기 제3 정렬된 잠재 음역 쌍을 음역 쌍이 되는 것으로 재분류하는 단계; 및
    상기 제3 정렬된 잠재 음역 쌍의 제3 편집 거리가 상기 제3 임계값보다 클 때, 상기 제3 정렬된 잠재 음역 쌍을 음역 쌍이 되지 않는 것으로 재분류하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  9. 청구항 1에 있어서, 상기 분류 모델은 SVM(Support Vector Machine)을 사용하는 것을 특징으로 하는 방법.
  10. 청구항 1에 있어서, 상기 가능성들은 로그 최우비(log-likelihood ratio)들을 사용하여 계산되는 것을 특징으로 하는 방법.
  11. 컴퓨터에 의해 구현되는 방법으로서,
    컴퓨터에서, 복수의 앵커 텍스트를 포함하는 복수의 리소스를 수신하는 단계;
    컴퓨터에서, 상기 복수의 앵커 텍스트로부터 하나 이상의 잠재 음역을 판단하는 단계;
    컴퓨터에서, 상기 하나 이상의 잠재 음역으로부터 하나 이상의 잠재 음역 쌍을 식별하는 단계―여기서, 각 잠재 음역 쌍은 제1 문자 체계로 된 제1 앵커 텍스트와 제2 문자 체계로 된 제2 앵커 텍스트를 포함하고, 상기 제2 앵커 텍스트와 상기 제1 앵커 텍스트는 동일한 리소스 또는 위치를 식별함―;
    각 잠재 음역 쌍에 대하여,
    컴퓨터에서, 상기 잠재 음역 쌍을 음역 쌍이 되는 것 또는 음역 쌍이 되지 않는 것으로 분류하는 단계;
    컴퓨터에서, 상기 제1 앵커 텍스트를 상기 제2 앵커 텍스트에 맞춰 배열하는 단계; 및
    컴퓨터에서, 상기 배열로부터 하나 이상의 편집을 추출하는 단계―여기서 상기 하나 이상의 편집은 상기 제1 앵커 텍스트를 상기 제2 앵커 텍스트로 시키기 위한 하나 이상의 동작으로 구성됨―; 및
    컴퓨터에서, 상기 하나 이상의 편집과 상기 분류된 잠재 음역 쌍들의 서브세트에 기초하여, 분류 모델을 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
  12. 청구항 11에 있어서, 상기 분류 모델을 사용하여 상기 잠재 음역 쌍들로부터 음역 쌍들을 식별하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  13. 청구항 11에 있어서, 상기 하나 이상의 잠재 음역이 동일한 소스 또는 위치를 식별하는 텍스트와 함께 발생할 가능성에 기초하여, 상기 하나 이상의 잠재 음역 쌍이 상기 하나 이상의 잠재 음역으로부터 식별되는 것을 특징으로 하는 방법.
  14. 청구항 11에 있어서, 상기 식별하는 단계는;
    상기 제1 앵커 텍스트와 상기 제2 앵커 텍스트 간의 제1 편집 거리를 판단하는 단계;
    상기 제1 편집 거리를 제1 임계값에 비교하는 단계; 및
    상기 비교에 기초하여, 상기 잠재 음역 쌍을 음역 쌍이 되는 것 또는 음역 쌍이 되지 않는 것으로 분류하는 단계를 포함하고,
    상기 배열은 상기 제1 편집 거리를 최소화하는 것에 기초하는 것을 특징으로 하는 방법.
  15. 청구항 14에 있어서, 상기 제1 임계값은 상기 제1 앵커 텍스트의 길이와 상기 제2 앵커 텍스트의 길이보다 작은 것을 특징으로 하는 방법.
  16. 청구항 15에 있어서, 세밀화 규칙들(refinement rules) 및 상기 제1 문자 체계로 된 상기 하나 이상의 편집에 기초하여, 상기 음역 쌍들을 재분류하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  17. 청구항 16에 있어서, 상기 세밀화 규칙들 및 상기 제2 문자 체계로 된 상기 하나 이상의 편집에 기초하여, 음역 쌍이 되는 것으로 분류된 상기 잠재 음역 쌍들을 재분류하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  18. 청구항 11에 있어서, 상기 분류된 잠재 음역 쌍들이 음역 쌍들이 될 가능성에 기초하여, 상기 분류된 잠재 음역 쌍들을 정렬하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  19. 청구항 18에 있어서, 상기 서브세트는 음역 쌍이 되는 것으로 분류된 잠재 음역 쌍들과 음역 쌍이 되지 않는 것으로 분류된 잠재 음역 쌍들을 포함하는 것을 특징으로 하는 방법.
  20. 청구항 11에 있어서, 상기 분류 모델은 SVM(Support Vector Machine)을 사용하는 것을 특징으로 하는 방법.
  21. 하나 이상의 프로세스로 하여금 동작들을 수행하게 할 수 있는 컴퓨터 프로그램이 수록된 컴퓨터 판독 가능 매체로서,
    상기 동작들은:
    복수의 앵커 텍스트를 포함하는 복수의 리소스를 수신하는 동작;
    상기 복수의 앵커 텍스트로부터 하나 이상의 잠재 음역을 판단하는 동작;
    상기 하나 이상의 잠재 음역으로부터 하나 이상의 잠재 음역 쌍을 식별하는 동작―여기서, 각 잠재 음역 쌍은 제1 문자 체계로 된 제1 앵커 텍스트와 제2 문자 체계로 된 제2 앵커 텍스트를 포함하고, 상기 제2 앵커 텍스트와 상기 제1 앵커 텍스트는 동일한 리소스 또는 위치를 식별함―;
    각 잠재 음역 쌍에 대하여,
    상기 잠재 음역 쌍을 음역 쌍이 되는 것 또는 음역 쌍이 되지 않는 것으로 분류하는 동작;
    상기 제1 앵커 텍스트를 상기 제2 앵커 텍스트에 맞춰 배열하는 동작; 및
    상기 배열로부터 하나 이상의 편집을 추출하는 동작―여기서 상기 하나 이상의 편집은 상기 제1 앵커 텍스트를 상기 제2 앵커 텍스트로 변환시키기 위한 하나 이상의 동작으로 구성됨―; 및
    상기 하나 이상의 편집과 상기 분류된 잠재 음역 쌍들의 서브세트에 기초하여, 분류 모델을 생성하는 동작을 포함하는 것을 특징으로 하는 컴퓨터 판독 가능 매체.
  22. 시스템으로서,
    프로그램 제품을 포함하는 기계 판독가능 저장 디바이스; 및
    상기 프로그램 제품을 실행시켜 동작들을 수행시킬 수 있는 하나 이상의 컴퓨터를 포함하고, 상기 동작들은
    복수의 앵커 텍스트를 포함하는 복수의 리소스를 수신하는 동작;
    상기 복수의 앵커 텍스트로부터 하나 이상의 잠재 음역을 판단하는 동작;
    상기 하나 이상의 잠재 음역으로부터 하나 이상의 잠재 음역 쌍을 식별하는 동작―여기서, 각 잠재 음역 쌍은 제1 문자 체계로 된 제1 앵커 텍스트와 제2 문자 체계로 된 제2 앵커 텍스트를 포함하고, 상기 제2 앵커 텍스트와 상기 제1 앵커 텍스트는 동일한 리소스 또는 위치를 식별함―;
    각 잠재 음역 쌍에 대하여,
    상기 잠재 음역 쌍을 음역 쌍이 되는 것 또는 음역 쌍이 되지 않는 것으로 분류하는 동작;
    상기 제1 앵커 텍스트를 상기 제2 앵커 텍스트에 맞춰 배열하는 동작; 및
    상기 배열로부터 하나 이상의 편집을 추출하는 동작―여기서 상기 하나 이상의 편집은 상기 제1 앵커 텍스트를 상기 제2 앵커 텍스트로 변환시키기 위한 하나 이상의 동작으로 구성됨―; 및
    상기 하나 이상의 편집과 상기 분류된 잠재 음역 쌍들의 서브세트에 기초하여, 분류 모델을 생성하는 동작을 포함하는 것을 특징으로 하는 시스템.
KR1020117008322A 2008-10-10 2009-10-05 음역을 위한 기계 학습 KR101650112B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US10469208P 2008-10-10 2008-10-10
US61/104,692 2008-10-10
US12/357,269 US8275600B2 (en) 2008-10-10 2009-01-21 Machine learning for transliteration
US12/357,269 2009-01-21

Publications (2)

Publication Number Publication Date
KR20110083623A KR20110083623A (ko) 2011-07-20
KR101650112B1 true KR101650112B1 (ko) 2016-08-22

Family

ID=42099693

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020117008322A KR101650112B1 (ko) 2008-10-10 2009-10-05 음역을 위한 기계 학습

Country Status (5)

Country Link
US (1) US8275600B2 (ko)
JP (1) JP5604435B2 (ko)
KR (1) KR101650112B1 (ko)
CN (1) CN102227724B (ko)
WO (1) WO2010042452A2 (ko)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US8521516B2 (en) * 2008-03-26 2013-08-27 Google Inc. Linguistic key normalization
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US8463591B1 (en) * 2009-07-31 2013-06-11 Google Inc. Efficient polynomial mapping of data for use with linear support vector machines
US20110218796A1 (en) * 2010-03-05 2011-09-08 Microsoft Corporation Transliteration using indicator and hybrid generative features
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US8930176B2 (en) 2010-04-01 2015-01-06 Microsoft Corporation Interactive multilingual word-alignment techniques
US8682643B1 (en) * 2010-11-10 2014-03-25 Google Inc. Ranking transliteration output suggestions
JP5090547B2 (ja) * 2011-03-04 2012-12-05 楽天株式会社 翻字処理装置、翻字処理プログラム、翻字処理プログラムを記録したコンピュータ読み取り可能な記録媒体、及び翻字処理方法
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8942973B2 (en) * 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9176936B2 (en) * 2012-09-28 2015-11-03 International Business Machines Corporation Transliteration pair matching
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
RU2632137C2 (ru) 2015-06-30 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер транскрипции лексической единицы из первого алфавита во второй алфавит
US10185710B2 (en) * 2015-06-30 2019-01-22 Rakuten, Inc. Transliteration apparatus, transliteration method, transliteration program, and information processing apparatus
US10268686B2 (en) 2016-06-24 2019-04-23 Facebook, Inc. Machine translation system employing classifier
US10460038B2 (en) * 2016-06-24 2019-10-29 Facebook, Inc. Target phrase classifier
US10789410B1 (en) * 2017-06-26 2020-09-29 Amazon Technologies, Inc. Identification of source languages for terms
US10558748B2 (en) 2017-11-01 2020-02-11 International Business Machines Corporation Recognizing transliterated words using suffix and/or prefix outputs
US11062621B2 (en) * 2018-12-26 2021-07-13 Paypal, Inc. Determining phonetic similarity using machine learning
KR20220017313A (ko) * 2020-08-04 2022-02-11 삼성전자주식회사 음역 검색을 위한 방법 및 이를 지원하는 전자 장치
CN112883162A (zh) * 2021-03-05 2021-06-01 龙马智芯(珠海横琴)科技有限公司 一种音译名识别方法、装置、识别设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007257644A (ja) 2006-03-24 2007-10-04 Fujitsu Ltd 訳語候補文字列予測に基づく訳語取得のためのプログラム、方法および装置
US20090070095A1 (en) 2007-09-07 2009-03-12 Microsoft Corporation Mining bilingual dictionaries from monolingual web pages

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0709801B1 (en) * 1994-10-28 1999-12-29 Hewlett-Packard Company Method for performing string matching
JP3863330B2 (ja) * 1999-09-28 2006-12-27 株式会社東芝 不揮発性半導体メモリ
US20010029455A1 (en) * 2000-03-31 2001-10-11 Chin Jeffrey J. Method and apparatus for providing multilingual translation over a network
EP1372139A1 (en) * 2002-05-15 2003-12-17 Pioneer Corporation Speech recognition apparatus and program with error correction
US20050216253A1 (en) * 2004-03-25 2005-09-29 Microsoft Corporation System and method for reverse transliteration using statistical alignment
US20070022134A1 (en) * 2005-07-22 2007-01-25 Microsoft Corporation Cross-language related keyword suggestion
CN100555308C (zh) * 2005-07-29 2009-10-28 富士通株式会社 地址识别装置和方法
CN100483399C (zh) * 2005-10-09 2009-04-29 株式会社东芝 训练音译模型、切分统计模型的方法和装置
JP4734155B2 (ja) * 2006-03-24 2011-07-27 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
US7917488B2 (en) * 2008-03-03 2011-03-29 Microsoft Corporation Cross-lingual search re-ranking

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007257644A (ja) 2006-03-24 2007-10-04 Fujitsu Ltd 訳語候補文字列予測に基づく訳語取得のためのプログラム、方法および装置
US20090070095A1 (en) 2007-09-07 2009-03-12 Microsoft Corporation Mining bilingual dictionaries from monolingual web pages

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
K. SARAVANAN et al., "Some Experiments in Mining Named Entity Transliteration Pairs from Comparable Corpora", Proc. of 2nd Int. workshop on Cross Lingual Inforamtion Access, 2008.01.

Also Published As

Publication number Publication date
US8275600B2 (en) 2012-09-25
US20100094614A1 (en) 2010-04-15
CN102227724A (zh) 2011-10-26
JP5604435B2 (ja) 2014-10-08
CN102227724B (zh) 2014-09-10
WO2010042452A2 (en) 2010-04-15
WO2010042452A3 (en) 2010-07-08
KR20110083623A (ko) 2011-07-20
JP2012505474A (ja) 2012-03-01

Similar Documents

Publication Publication Date Title
KR101650112B1 (ko) 음역을 위한 기계 학습
US8660834B2 (en) User input classification
Poon et al. Unsupervised morphological segmentation with log-linear models
Zaghouani RENAR: A rule-based Arabic named entity recognition system
JP2012529108A (ja) ライティングシステム及び言語の検出
JP2014186395A (ja) 文書作成支援装置、方法およびプログラム
Sun et al. Chinese new word identification: a latent discriminative model with global features
Chen et al. Integrating natural language processing with image document analysis: what we learned from two real-world applications
Widiarti et al. A method for solving scriptio continua in Javanese manuscript transliteration
Utomo et al. Text classification of british english and American english using support vector machine
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
CN114064901B (zh) 一种基于知识图谱词义消歧的书评文本分类方法
López et al. Experiments on sentence boundary detection in user-generated web content
Arikan et al. Detecting clitics related orthographic errors in Turkish
JP2011008784A (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
US8666987B2 (en) Apparatus and method for processing documents to extract expressions and descriptions
Wei et al. Feature selection on Chinese text classification using character n-grams
Ebert et al. Ontology-based information extraction from handwritten documents
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
Eutamene et al. Ontologies and Bigram-based Approach for Isolated Non-word Errors Correction in OCR System.
CN110023931A (zh) 用于语言检测的系统和方法
CN113722447B (zh) 一种基于多策略匹配的语音搜索方法
Naeem et al. Exploiting Transliterated Words for Finding Similarity in Inter-Language News Articles using Machine Learning
Degu et al. Development of dependency parser for Amharic sentences
CN116911298A (zh) 文本数据的增强方法及装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190806

Year of fee payment: 4