KR101753395B1 - 음역 방법 및 장치 - Google Patents

음역 방법 및 장치 Download PDF

Info

Publication number
KR101753395B1
KR101753395B1 KR1020100096762A KR20100096762A KR101753395B1 KR 101753395 B1 KR101753395 B1 KR 101753395B1 KR 1020100096762 A KR1020100096762 A KR 1020100096762A KR 20100096762 A KR20100096762 A KR 20100096762A KR 101753395 B1 KR101753395 B1 KR 101753395B1
Authority
KR
South Korea
Prior art keywords
sub
language
target language
words
audio units
Prior art date
Application number
KR1020100096762A
Other languages
English (en)
Other versions
KR20110044697A (ko
Inventor
피유시 쿠마르 라이
사말스 비노드 데오
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to US12/911,384 priority Critical patent/US8554537B2/en
Publication of KR20110044697A publication Critical patent/KR20110044697A/ko
Application granted granted Critical
Publication of KR101753395B1 publication Critical patent/KR101753395B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types

Abstract

음역 방법은 소스 언어로 된 입력을 수신하는 단계를 포함한다. 입력의 몇몇 예로는, 단어, 문장, 구문, 단락을 들 수 있다. 이 방법은 단어에 대한 소스 언어 부음성 유닛들을 작성하는 단계와 단어에 대한 소스 언어 부음성 유닛들을 목적 언어 부음성 유닛들로 변환하는 단계를 또한 포함한다. 또한, 이 방법은 목적 언어 부음성 유닛들 각각에 대한 순위를 데이터베이스로부터 검색하는 단계와 목적 언어 부음성 유닛들 및 이 목적 언어 부음성 유닛들 각각의 순위에 의거하여 소스 언어로 된 단어에 대한 목적 언어 단어들을 작성하는 단계를 포함한다. 이 방법은 소정의 기준에 의거하여 후보 목적 언어 단어들을 식별하는 단계 및 후보 목적 언어 단어들을 표시하는 단계를 또한 포함한다.

Description

음역 방법 및 장치{METHOD AND DEVICE FOR TRANSLITERATION}
본 발명은 전자 장치에 관한 것이다. 보다 구체적으로, 본 발명은 전자 장치에서의 음역(transliteration) 방법 및 시스템에 관한 것이다.
대부분의 전자 장치는 특정 언어로 된 입력을 생성하기 위해 구성되는 입력 모듈을 포함하고 있다. 예를 들어, 모바일 폰(mobile phone)은 영어로 된 입력만을 생성하도록 구성되는 키패드를 포함할 수 있다. 이들 전자 장치들은 사용자들이 텍스트 입력을 그들의 언어로 전자 장치에 입력하는데 빈번히 사용될 수 있다. 이러한 시나리오에서, 어떤 사용자는 그들의 언어로 된 텍스트를 편리하게 입력하기 위해 이들 전자 장치를 사용하는 것이 불가능할 수도 있다. 예를 들어, 사용자가 단문 메시징 서비스(Short Messaging Service)를 한국어로 전송하려 하지만, 한국어 텍스트를 받아들이도록 구성된 키패드를 이용할 수 없기 때문에, 사용자는 한국어로 된 텍스트를 입력할 수 없는 경우가 발생할 수 있다.
키패드로 입력하도록 설계된 스크립트/언어와는 다른 스크립트/언어로 텍스트를 사용자가 전자 장치에 입력하기 위해서는, 음역(transliteration)이 유일한 옵션으로 남게 된다. 이하에서는 소스 언어라는 하나의 언어를, 이하에 목적 언어로라는 다른 언어의 스크립트를 이용하여 데이터를 기입하는 프로세스로서 음역을 광범위하게 정의할 수 있다.
음역에 관한 공지의 기술 중 하나에서는, 목적 언어 문자와 소스 언어 문자와의 고정 매핑이 전자 장치에 저장된다. 결과적으로, 많은 양의 메모리가 사용되게 된다. 이러한 기술에서는, 사용자가 목적 언어로 된 소망의 문자에 해당하는 소스 언어에 대한 키패드를 기억해야할 필요가 있다. 또한, 이 기술에서, 단어의 음역은 대소문자를 구별한다. 예를 들어, 영어 키패드의 'd'는
Figure 112010064244094-pat00001
(힌두어)를 타이핑하기 위해 사용될 수 있고 'D'는
Figure 112010064244094-pat00002
(힌두어)를 타이핑하기 위해 사용될 수 있다. 그러나, 사용자들은 일반적으로
Figure 112010064244094-pat00003
Figure 112010064244094-pat00004
모두를 타이핑하기 위해 'd'를 사용하게 된다. 결과적으로, 사용자는 출력을 구성하기 위해 복잡한 구문을 따라 행해야만 하고 전자 장치는 추가적인 프로세싱 전력을 필요로 하게 된다.
다른 공지의 기술에 따르면, 자동 학습 모델(automated learning model)을 이용함으로써 소스 단어에서 각각의 소스 언어 문자의 위치에 근거하여 결정 트리(decision tree)가 작성된다. 이 결정 트리는 수많은 규칙으로 이루어져 있다. 이 규칙들은 목적 언어로 된 특정 문자를 다양한 가능한 방법에 프로그램적으로 매핑되도록 하여 그 문자의 문맥에 의거하여 이를 소스 언어로 음역하게 된다. 문맥은 4 내지 5개의 이전 및 이후 소스 및 목적 언어 문자들에 의해 정의될 수 있다. 결과적으로, 단어 내의 문자의 문맥에 따르거나 또는 해당 규칙을 선택함으로써, 결정 트리는 소스 언어 문자에 대응하여 나타내야 하는 목적 언어 문자를 예측하게 된다.
종래 기술에서 설명된 학습 모델은 단어 내의 문자가 발생하는 각각의 위치에서 각각의 소스 언어 문자의 원시 학습(raw learning)에 의거한다. 소스 언어의 각각의 문자에 대한 학습은 소스 언어 문자의 문맥에 의거한 목적 언어 문자의 문맥에 가능한 많은 매핑을 작성하게 된다. 단어 내에 소스 언어 문자의 다중 발생이 존재하면 할수록, 이것이 발생하는 각각의 위치에서 이것의 문맥에 의거하여 각각의 문자에 대한 규칙을 생성하는 것은 많이 메모리를 요구하게 된다. 또한, 목적 언어에 대한 훈련 모델은 소스 언어에 따라 다르게 된다. 이는 소스 언어의 각각의 인스턴스(instance)에 대하여 실행되도록 훈련 모델(특정 목적 언어에 대한)을 요구하게 된다.
또 다른 기술에 있어서는, 음역은 단어 쌍에 해당하는 두 가지 언어 사전의 세그먼트에 의거한다. 각각의 단어 쌍은 소스 단어와 이 소스 단어에 해당하는 수많은 목적 단어들을 포함한다. 각각의 소스 단어는 소스 언어로 특정지어지고 각각의 목적 단어는 목적 언어로 된 해당 소스 단어의 음역이다. 단어 쌍들은 소스 언어의 첫 번째 텍스트와 목적 언어의 두 번째 텍스트를 갖는 패럴랠(parallel) 텍스트의 코퍼스(corpus)로부터 통계학적 정보에 의거하여 순위가 정해진다. 어떤 목적 언어 세그먼트가 특정 소스 언어 세그먼트에 대하여 나타내야 할 지의 결정은 각각의 단어 쌍에 할당되는 순위(rank)에 의거한다. 보다 더 개선된 음역을 위해서는, 소스 언어에서의 각각의 단어가 목적 언어에서의 해당 음역된 단어를 갖는 두 가지 언어 사전에 단어 음역을 위한 룩업(look-up)을 행하게 된다.
종래의 기술에 설명된 학습 모델은 수많은 세그먼트와 단어들을 단어 쌍의 형태로 저장하게 위하여 두 가지 언어 사전을 이용하는 것이 채용되었으며, 여기서 소스 언어 단어(또는 세그먼트)는 이것의 해당 목적 언어 단어(또는 세그먼트)에 직접적으로 매핑된다. 결과적으로, 사전에 두 가지 언어의 엔트리에 관한 저장 정보로 말미암아 거대한 메모리를 요구하게 된다. 또한 두 가지 언어의 사전을 채용하는 것은 목적 언어에 대한 소스 언어 또는 그 반대의 의존성을 필연적으로 포함하게 된다.
상술한 내용에 비추어 보면, 음역을 효율적으로 행하기 위한 시스템 및 방법의 대한 필요성이 요구되고 있다.
일실시예에 있어서, 음역 방법은 소스 언어로 된 단어를 수신하는 단계; 상기 단어에 대한 소스 언어 부음성(sub-phonetic) 유닛을 목적 언어 부음성 유닛으로 변환하는 단계; 데이터베이스로부터 각각의 상기 목적 언어 부음성 유닛에 대한 순위를 검색하는 단계; 상기 목적 언어 부음성 유닛과 각각의 목적 언어 부음성 유닛에 의거하여 상기 소스 언어로 된 단어에 대한 목적 언어 단어를 작성하는 단계; 소정의 기준에 근거한 후부 목적 언어 단어들을 식별하는 단계; 및 후보 목적 언어 단어들을 표시하는 단계를 포함한다.
다른 실시예에 있어서, 음역 방법은 소스 언어로 된 텍스트 입력을 수신하는 단계; 상기 텍스트 입력에서 각각의 단어에 대한 소스 언어 부음성 유닛을 작성하는 단계; 상기 텍스트 입력에서 상기 각각의 단어에 대한 상기 소스 언어 부음성 유닛을 목적 언어 부음성 유닛으로 변환하는 단계; 데이터베이스로부터 상기 목적 언어 부음성 유닛 각각에 대한 순위를 검색하는 단계; 상기 목적 언어 부음성 유닛과 상기 목적 언어 부음성 유닛 각각의 순위에 의거하여 목적 언어 단어들을 작성하는 단계; 소정의 기준에 의거하여 후보 목적 언어 단어들을 식별하는 단계; 및 상기 후보 목적 언어 단어들에 의거하여 상기 목적 언어에서 상기 텍스트 입력을 표시하는 단계를 포함한다.
또 다른 실시예에 있어서, 음역 방법은 소스 언어로 된 텍스트 입력을 수신하는 단계; 상기 텍스트 입력에서 각각의 단어에 대한 소스 언어 부음성 유닛을 작성하는 단계; 상기 텍스트 입력에서 상기 각각의 단어에 대한 상기 소스 언어 부음성 유닛을 목적 언어 부음성 유닛으로 변환하는 단계; 데이터베이스로부터 상기 목적 언어 부음성 유닛 각각에 대한 순위를 검색하는 단계; 상기 목적 언어 부음성 유닛과 상기 목적 언어 부음성 유닛 각각의 순위에 의거하여 목적 언어 단어들을 작성하는 단계; 상기 소스 언어로 된 해당 단어들을 형성하기 위해 상기 목적 언어 단어 각각에 대한 역음역(reverse transliteration)을 실행하는 단계; 상기 역음역에 의거하여 후보 목적 언어 단어들을 식별하는 단계; 및 상기 후보 목적 언어 단어들에 의거하여 상기 목적 언어로 된 상기 텍스트 입력을 표시하는 단계를 포함한다.
또 다른 실시예에 있어서, 전자 장치는 소스 언어로 된 텍스트 입력을 수신하도록 구성된 수신기; 상기 텍스트 입력에서 각각의 단어에 대한 소스 언어 부음성 유닛들을 작성하고, 상기 텍스트 입력에서의 각각의 단어에 대한 상기 소스 언어 부음성 유닛을 목적 언어 부음성 유닛으로 변환하고, 데이터베이스로부터 상기 목적 언어 부음성 유닛의 순위를 검색하고, 상기 목적 언어 부음성 유닛들과 각각의 상기 목적 언어 부음성 유닛의 상기 순위에 의거하여 목적 언어 단어들을 작성하고, 상기 역음역에 의거하여 후보 목적 언어 단어들을 식별하도록 구성된 음역 엔진; 및 목적 언어로 된 상기 후보 음역 단어들을 표시하도록 구성된 디스플레이 유닛을 포함한다.
본 발명의 특징 및 이점들은 첨부된 도면과 함께 행해진 본 발명의 상세한 설명으로부터 보다 명확해 질 것이다.
발명을 실시하기 위한 구체적인 내용에 들어가지 전에, 본 특허 문서 전반에 걸쳐 사용되는 특정 단어 및 문구의 정의를 규정하는 것이 유리할 것이다. 용어 "포함하다" 및 "구비하다"와 이의 파생어들은 제한이 없는 포함을 의미하며; 용어 "또는"은 포함하는 의미로 "및/또는"을 의미하는 것으로 사용되고; 구문 "와 관련된" 및 "이에 관련"과 이의 파생어들은 포함, 내에 포함, 상호 접속, 내포, 내에 함유, 접속, 연결, 통신 가능, 협동, 교호, 병설, 근접, 구속, 소유, 특성을 소유 등을 의미할 수도 있다. 특정 단어 및 문구의 정의들은 본 특허 문서 전반에 걸쳐 제시되며, 당업자들은 많은 부분 이해할 것이며, 그렇지 않더라도 대부분의 경우 이러한 정의들은 종래에 적용되며, 뿐만 아니라 이러한 정의된 단어 및 문구의 장래 사용에 적용된다.
본 발명에 음역 방법 및 시스템을 제공함에 따라, 사용자에게 입력을 효율적으로 음역하도록 규칙들을 따르는 것을 요구하지 않으며, 음역하기 위해 입력에 대한 고정된 규칙들을 요구하지 않는 효과가 있다. 또한, 학습이 문자 기반보다는 부음성 유닛에서 행해지므로, 적은 메모리 자원을 이용하여 더 많은 정보를 획득할 수 있는 효과가 있다. 또한 목적 언어 코퍼스의 사용으로 음역 엔진의 정확도를 향상시킬 수 있는 효과가 있다.
도 1은 음역을 설명하는 일례를 나타내는 도면.
도 2는 본 발명의 실시 예에 따른 전자 장치를 나타내는 블록도.
도 3은 본 발명의 일실시 예에 따른 음역 방법을 설명하는 플로차트.
도 4a 및 4b는 본 발명의 다른 실시 예에 따른 음역 방법을 설명하는 플로차트.
도 5는 본 발명의 일실시 예에 따른 인스턴스를 훈련하는 방법을 설명하는 플로차트.
도 6은 본 발명의 다른 실시 예에 따른 인스턴스를 훈련하는 방법을 설명하는 플로차트.
본 발명 및 이의 이점들을 보다 완벽하게 이해하기 위하여, 첨부된 도면과 함께 이루어진 다음의 설명에서 동일한 참조 번호는 동일한 부분을 나타낸다.
도면에 나타낸 요소들이 간단하고 명확하게 도시되어 있으며 스케일에 맞춰 도시되지 않았을 수도 있음을 당업자들은 알 수 있을 것이다. 예를 들어, 몇몇 요소들의 치수는 명확성과 본 발명의 다양한 실시예의 이해를 증진하는데 도움을 주기 위해 다른 요소에 비해 과장되어 도시될 수도 있다.
본 특허 문서에서 본 발명의 원리를 설명하기 위해 사용되는 이하에 논의되는 도 1 내지 도 6 및 다양한 실시예들은 단지 도시를 위한 것으로 어떠한 방식으로든지 본 발명의 범위를 한정하려는 의도로 해석되어서는 안 된다. 당업자들은 본 발명의 원리들이 임의의 적절하게 배열된 통신 시스템에 실시될 수도 있음을 이해할 것이다. 다양한 실시예를 설명하기 위해 사용된 용어들은 예시적인 것이다. 이들은 단지 설명을 이해하기 위한 목적으로 제공되는 것이며 이들의 사용 및 정의는 본 발명의 범위를 어떠한 방식으로든지 한정하려는 것이 아님을 이해하여야 한다. 용어 "제1", "제2" 등은 동일 용어를 갖는 대상들 사이에 차별화하기 위해 사용되는 것으로 별도의 언급이 없는 한 시간적 순서를 나타내기 위한 의도는 없다. 세트(set)는 적어도 하나의 요소를 포함하고 있는 비어있지 않은 세트로서 정의된다.
도 1은 음역을 설명하기 위한 일례이다. 이 예에서, 소스 언어로 된 텍스트(102)는 목적 언어의 스크립트로 변환될 필요가 있다. 음역 엔진(104)은 텍스트(102)를 소스 언어(영어)에서 목적 언어(힌두어)로 된 텍스트(106)로 변환한다. 음역 엔진(104)은 영어로 된 입력을 제공하도록 구성되어 있는 키보드를 사용하여 사용자로 하여금 힌두어로 된 입력을 제공할 수 있게 한다. 상기 예에서는 소스 언어를 영어로 목적 언어를 힌두어로 설명하였지만, 음역 엔진(104)이 임의의 소스 언어로 된 입력을 수신할 수 있고 임의의 원하는 목적 언어로 입력을 음역할 수 있음을 당업자에게는 명확할 것이다. 소스 언어에서 목적 언어로 텍스트를 음역할 수 있는 전자 장치를 도 2를 참조하여 설명한다.
도 2는 본 발명의 실시 예에 따른 전자 장치(200)를 나타내는 블록도이다. 전자 장치(200)는 소스 언어에서 목적 언어로 텍스트를 음역할 수 있다. 전자 장치(200)는 소스 언어로 된 텍스트 입력을 상기 사용자로부터 입력받기 위한 수신기(202)를 포함한다. 텍스트 입력은 단어, 문자, 구문 등과 같은 형태로 될 수도 있다. 수신기(202)에 의해 수신된 입력은 음역 엔진(204)에 입력된다. 사용자의 편익에 의하여 음역 엔진(204)은 소스 언어로부터의 텍스트 입력을 목적 언어로 번역한다. 예를 들어, 전자 장치(200)에서 사용가능한 키보드/키패드를 이용하여 사용자가 영어로 텍스트 입력을 제공하고, 상기 텍스트 입력이 힌두어(목적 언어)로 음역되도록 선택할 수 있다. 마찬가지로, 음역 엔진(204)은 소스 언어로부터의 텍스트 입력을 원하는 목적 언어로 음역할 수 있다. 음역 엔진의 일례로 음역을 실행하도록 구성/프로그래밍된 프로세서를 들 수 있다.
음역 엔진(204)은 텍스트 입력에서의 각각의 단어에 대하여 소스 언어 부음성 유닛(sub-phonetic unit)을 생성한다. 그런 다음, 음역 엔진(204)은 텍스트 입력 내의 각각의 단어에 대한 소스 언어 부음성 유닛을 목적 언어 부음성 유닛으로 변환한다. 음역 엔진(204)은 각각의 목적 언어 부음성 유닛에 대해 선호도 계수(preference coefficient)를 또한 산출하고 상기 선호도 계수에 의거하여 목적 언어 부음성 유닛 각각이 갖는 선호도에 주석을 단다. 선호도 계수는 소스 언어 부음성 유닛들과 목적 언어 부음성 유닛들 간의 관계에 대한 강도를 나타낸다. 그런 다음, 음역 엔진(204)은 데이터베이스로부터 목적 언어 부음성 유닛들 각각의 순위를 검색하고 목적 언어 부음성 유닛들과 목적 언어 부음성 유닛들 각각의 순위에 의거하여 목적 언어 단어들을 작성한다. 데이터베이스는 전자 장치(200)에서 이용가능한 메모리(206) 내에 저장된다. 후보 목적 언어 단어들은 소정의 기준에 의거하여 음역 엔진에 의해 식별된다. 예를 들어, 소스 언어 단어에 적어도 80% 근접한 목적 언어로 된 단어들이 후보 목적 언어 단어들로서 식별된다. 단어들의 근접성을 결정하기 위하여 레벤스타인 거리(Levensthein distance)가 이용될 수 있다. 다른 예에 있어서, 소스 언어로 된 단어에 가장 근접한 목적 언어로 된 5개의 단어들을 후보 목적 언어 단어들로 식별할 수 있다. 후보 목적 언어 단어들은 디스플레이 유닛(208)에 표시될 수 있다.
일예에서는, 음역 엔진(204)은 역음역(reverse transliteration)을 실행하도록 구성되어 있다. 역음역은 입력된 텍스트와 일치하지 않는 음역된 단어들을 필터링하는 것을 돕는다. 역으로 음역된 단어들의 매칭은 몇몇 버퍼에 의거하여 행해질 수 있다. 예를 들어, 역으로 음역된 단어들이 소스 언어로된 단어와 80% 일치할 경우, 해당 음역된 단어는 출력 또는 출력들 중의 하나로서 사용자에게 제공될 수 있다. 역음역의 이러한 기술은 규칙 위반으로 음역된 단어들을 필터링하는 것이 가능하게 된다.
일예에서는, 전자 장치(200)는 또한 목적 언어로 된 후보 단어들을 명확하게 하도록 구성된 중의성 해소(disambiguation) 엔진을 포함할 수 있다. 음역 방법을 도 3을 참조하여 설명한다.
도 3은 본 발명의 일실시예에 따른 음역 방법을 설명하는 플로차트이다. 이 실시예를 설명하기 위하여, 도 2를 참조한다. 그러나, 본 발명이 그 밖의 다른 임의의 적절한 실시예로 설명될 수 있으며, 이 모든 것이 본 발명에 준하고 있음이 당업자에게는 명백할 것이다. 음역 방법은 단계 302에서 개시된다. 단계 304에서, 소스 언어로 된 입력이 사용자로부터 전자 장치(200)에 의해 수신된다. 입력의 예로는 단어, 단어들, 문장들, 구문들, 및 단락들을 포함되지만, 이에 한정되는 것은 아니다. 입력은 전자 장치(200)에 구비된 수신기(202)를 이용하여 수신할 수 있다. 전자 장치(200)로 이용가능한 키패드, 키보드, 가상 키패드, 또는 소프트웨어 키패드/키보드를 이용함으로써 사용자는 입력을 타이핑할 수 있다.
입력이 수신된 후에, 입력에 대한 소스 언어 부음성 유닛들이 단계 306에서 작성된다. 힌두어 단어 'asmanjas'가 소스언어의 사용에 의해 영어로서 입력되어 수신되는 하나의 예를 고려해 본다. 일단 'asmanjas'가 입력으로서 수신되면, 'as', 'smn', 'manj', 및 'jas'와 같은 'asmanjas'에 대한 부음성 유닛들이 영어로 작성된다. 그런 다음, 단계 308에서 소스 언어 부음성 유닛들이 목적 언어(힌두어) 부음성 유닛들로 변환된다. 예를 들어, 소스 언어 부음성 유닛 'as'는
Figure 112010064244094-pat00005
,
Figure 112010064244094-pat00006
, 및
Figure 112010064244094-pat00007
와 같은 목적 언어 부음성 유닛들로 변환될 수 있다. 마찬가지로, 소스 언어 부음성 유닛들, 'smn', 'manj', 및 'jas'는 각각
Figure 112010064244094-pat00008
,
Figure 112010064244094-pat00009
, 및
Figure 112010064244094-pat00010
;
Figure 112010064244094-pat00011
,
Figure 112010064244094-pat00012
,
Figure 112010064244094-pat00013
, 및
Figure 112010064244094-pat00014
; 그리고
Figure 112010064244094-pat00015
,
Figure 112010064244094-pat00016
,
Figure 112010064244094-pat00017
, 및
Figure 112010064244094-pat00018
와 같이 변환될 수 있다. 단계 310에서, 각각의 목적 언어 부음성 유닛들의 순위가 데이터베이스로부터 검색된다. 목적 언어 부음성에 관한 예시적인 순위를 아래 표 1에 제시한다.
목적 언어 부음성 유닛 순위
Figure 112010064244094-pat00019
1
Figure 112010064244094-pat00020
3
Figure 112010064244094-pat00021
5
Figure 112010064244094-pat00022
1
Figure 112010064244094-pat00023
5
Figure 112010064244094-pat00024
7
Figure 112010064244094-pat00025
2
Figure 112010064244094-pat00026
4
Figure 112010064244094-pat00027
8
Figure 112010064244094-pat00028
10
Figure 112010064244094-pat00029
5
Figure 112010064244094-pat00030
7
Figure 112010064244094-pat00031
9
Figure 112010064244094-pat00032
11
상기 표 1에서, 1은 목적 언어 부음성 유닛에 대한 가장 높은 순위(가장 높은 우선순위)를 나타낸다.
단계 312에서, 목적 언어 부음성 유닛과 목적 언어 부음성 유닛들의 순위에 의거하여 목적 언어 단어들이 작성된다. 소스 언어로 된 하나의 단어에 대하여 다중의 목적 언어 단어들이 작성될 수 있다. 예를 들어, 다중 목적 언어 부음성 유닛들은 하나의 소스 언어 부음성 유닛에 대해 선택될 수 있다. 목적 언어 부음성 유닛들은 소정의 임계값 순위에 의거하여 선택될 수 있다. 또는, 상위 두 개(또는 그 이상)의 목적 언어 부음성 유닛들이 각각의 소스 언어 부음성 유닛에 대하여 선택될 수 있다. 따라서, 만일 첫 번째 두 개의 목적 언어 부음성 유닛들이 각각의 소스 언어 부음성 유닛에 대하여 선택될 경우,
Figure 112010064244094-pat00033
,
Figure 112010064244094-pat00034
,
Figure 112010064244094-pat00035
,
Figure 112010064244094-pat00036
,
Figure 112010064244094-pat00037
,
Figure 112010064244094-pat00038
,
Figure 112010064244094-pat00039
, 및
Figure 112010064244094-pat00040
이 작성될 수 있다.
단계 314에서, 소정의 기준에 의거하여 후보 목적 언어 단어들이 식별될 수 있다. 일예에서는, 후보 목적 언어 단어들이 해당 소스 언어 단어들을 형성하기 위하여 역으로 음역될 수 있다. 음역된 목적 언어 부음성 유닛들을 형성하기 위하여 후보 목적 언어 단어들을 먼저 분류함으로써 역음역이 실행될 수 있다. 따라서, 데이터베이스로부터 각각의 음역된 목적 언어 부음성 유닛에 대한 순위를 검색하게 된다. 또한, 각각의 음역된 목적 언어 부음성 유닛을 소스 언어로 된 단어들을 형성하게 된다. 그런 다음, 후보 목적 언어 단어들은 역음역에 따라 선택된다. 예를 들어, 역으로 음역된 소스 언어의 단어들은 입력 단어와 일치될 수 있으며 입력 단어와 예를 들어 80% 이상 일치하는 입력 단어들은 목적 언어 단어들로 식별될 수 있다. 다른 예에서, 입력된 단어들에 대해 가장 근접하게 일치하는 역으로 음역된 하나의 단어(또는 단어들)은 목적 언어 단어로서 식별될 수 있다. 예를 들어,
Figure 112010064244094-pat00041
,
Figure 112010064244094-pat00042
,
Figure 112010064244094-pat00043
,
Figure 112010064244094-pat00044
,
Figure 112010064244094-pat00045
,
Figure 112010064244094-pat00046
,
Figure 112010064244094-pat00047
, 및
Figure 112010064244094-pat00048
는 asmanjas(입력 단어와 100% 일치), asmanjaas(입력 단어와 75% 일치), asmanjas(입력 단어와 11.11% 일치), aasmanjas(입력 단어와 11.11% 일치), aasmanjaas(입력 단어와 10% 일치), 및 aasmanjaas(입력 단어와 10% 일치)로 역으로 음역될 수 있다. 그 밖의 주지의 기술들이 역음역에 의거하여 목적 언어 단어들을 식별하는데 사용될 수 있다.
단계 316에서,
Figure 112010064244094-pat00049
Figure 112010064244094-pat00050
(목적 언어 후보 단어들)가 표시될 수 있다(입력 단어에 가장 근접하게 일치하는 첫 번째 두 개의 역으로 음역된 단어들이 목적 언어 단어들로서 식별됨). 일예에서, 목적 언어 후보 단어들은 일치율(percentage)의 순서 또는 사용 빈도에 따른 순위 리스트로서 제공된다. 일예에서, 목적 언어 후보 단어들을 표시하기 전에, 목적 언어 단어들은 목적 언어의 코퍼스(corpus)를 이용하여 확인될 수 있다. 그런 다음, 사용자는 원하는 후보 단어를 선택할 수 있다. 일예에서, 사용자의 선택에 의거하여, 피드백이 음역 엔진에 제공될 수 있다. 일예에서, 가장 빈번히 사용되는 후보 목적 언어 단어가 표시된다(사용자에게 출력됨). 일 예에서, 사용자는 전자 장치(200)에서 이용가능한 키를 사용하여 목적 언어로 된 후보 단어들을 토글할 수 있다. 그런 다음, 단계 318에서 방법이 종료된다.
도 4a 및 4b는 본 발명의 다른 실시 예에 따른 음역 방법을 도시하는 플로차트이다. 이 실시예를 설명하기 위하여, 도 2 및 도 3을 참조한다. 그러나, 본 발명이 그 밖의 다른 임의의 적절한 실시 예로 설명될 수 있으며, 이 모든 것이 본 발명에 준하고 있음이 당업자에게는 명백할 것이다. 상기 방법은 도 4a 및 4b에 도시된 바와 같이 다수의 단계들을 포함할 수 있다. 단계 402에서 이 방법이 개시된다. 단계 404에서, 소스 언어로 된 입력이 수신된다. 입력 텍스트의 예로서는 단어, 문장, 구문들, 및 단락들을 포함하지만, 이에 한정되는 것은 아니다. 단계 406에서, 입력에 대한 소스 언어 부음성 유닛들이 생성된다(도 3에서의 설명과 동일).
단계 408에서, 각각의 소스 언어 부음성 유닛과 각각의 목적 언어 부음성 유닛 사이에 대응(correspondence)이 생성된다. 소스 언어 부음성 유닛과 목적 언어 부음성 유닛 사이의 대응은 소스 언어 부음성 유닛과 목적 언어 부음성 유닛간의 매핑을 이용함으로써 생성될 수 있다. 일예에서, 소스 언어 부음성 유닛과 목적 언어 부음성 유닛 사이의 대응은 소스 언어 부음성 유닛들을 목적 언어 부음성 유닛들로 바인딩(binding)하는 확률을 제공하는 반사 계수(reflective coefficient)들을 사용함으로써 생성될 수 있다. 일예에서, 반사 계수는 베이지안(Bayesian) 인수(factor)를 이용함으로써 산출될 수 있다.
단계 410에서, 입력에 대한 소스 언어 부음성 유닛들이 목적 언어 부음성 유닛으로 변환된다(도 3에서의 설명과 동일). 그런 다음, 소스 언어 부음성 유닛들과 목적 언어 부음성 유닛들과 갖는 관계에 있어서의 강도를 나타내는 선호도 계수가 단계 412에서 산출된다. 일예에서, 선호도 계수는 베이지안 추정(Bayesian estimation)을 이용하여 산출될 수 있다. 그런 다음, 단계 414에서, 선호도 계수들은 각각의 목적 언어 부음성로 주석이 달리게 된다.
단계 416에서, 각각의 목적 언어 부음성 유닛에 대한 순위가 데이터베이스로부터 검색된다. 목적 언어 부음성에 대한 순위는 목적 언어 부음성의 선호도 계수 및/또는 목적 언어 부음성 유닛과 소스 언어 부음성 유닛들 사이의 대응에 의거하여 산출될 수 있다. 예를 들어, 목적 언어 부음성 유닛의 순위는 선호도 계수 및 목적 언어 부음성 유닛과 소스 언어 부음성 유닛들 간의 대응 간의 정규화 함수(normalization function)를 이용함으로써 산출될 수 있다.
단계 418에서, 입력에 대한 목적 언어 단어(들)가 생성된다(도 3에서의 설명과 동일). 단계 420에서, 사용자에 의해 선택된 목적 언어 단어들은 부음성 유닛들에 따라 식별된다. 단계 422에서, 후보 목적 언어 단어들은 후보 목적 언어 단어들에서의 부음성 유닛들의 선호도에 따라 선별된다. 단계 424에서, 소스 언어 부음성과 목적 언어 부음성 유닛들 사이의 대응 및 반사 계수를 이용함으로써 선별된 후보 목적 언어 단어들을 역으로 음역한다. 소스 언어 부음성과 목적 언어 부음성 유닛들 사이의 대응은 각각의 소스 언어 부음성 유닛과 각각의 목적 언어 부음성 유닛과의 매핑에 따른다.
단계 426에서, 후보 목적 언어 단어들은 선별된 후보 목적 언어 단어들의 역음역에 따라여 다시 식별된다. 단계 428에서, 후보 목적 언어 단어들의 중의성이 해소된다. 그런 다음, 단계 430에서, 후보 목적 언어 단어들이 사용자에게 표시된다. 일예에서, 목적 언어 후보 단어들은 일치율(percentage)의 순서 또는 사용 빈도에 따른 순위 리스트로서 제공된다. 일예에서, 목적 언어 후보 단어들을 표시하기 전에, 목적 언어 단어들은 목적 언어의 코퍼스(corpus)를 이용하여 확인될 수 있다. 그런 다음, 사용자는 원하는 후보 단어를 선택할 수 있다. 일예에서, 사용자의 선택에 의거하여, 피드백이 음역 엔진에 제공될 수 있다. 일예에서, 가장 빈번히 사용되는 후보 목적 언어 단어가 표시된다(사용자에게 출력됨). 일 예에서, 사용자는 전자 장치(200)에서 이용가능한 키를 사용하여 목적 언어로 된 후보 단어들을 토글할 수 있다. 그런 다음, 단계 432에서 이 방법이 종료된다.
도 5는 본 발명의 일실시예에 따른 인스턴스를 훈련하는 방법을 나타내는 플로차트이다. 이 실시예를 설명하기 위하여, 도 2를 참조한다. 그러나, 본 발명이 그 밖의 다른 임의의 적절한 실시예로 설명될 수 있으며, 이 모든 것이 본 발명에 준하고 있음이 당업자에게는 명백할 것이다. 또한, 상기 방법은 도 5에 도시된 단계보다 더 많은 단계를 포함할 수 있다.
단계 502에서, 상기 방법이 개시된다. 단계 504에서, 사용자의 의해 선택된 후보 목적 언어 단어에 따라,음역 엔진에 의해 피드백이 수신된다. 예를 들어, 사용자는 전자 장치(200)에 표시된 후보 목적 언어 단어들의 리스트로부터 원하는 후보 목적 언어 단어들을 선택할 수 있다.
단계 506에서, 사용자에 의해 선택된 목적 언어 단어의 부음성 유닛들이 식별된다. 상술의 예에서 사용자가
Figure 112010064244094-pat00051
Figure 112010064244094-pat00052
로부터
Figure 112010064244094-pat00053
를 선택한다고 가정하면,
Figure 112010064244094-pat00054
의 부음성 유닛들이
Figure 112010064244094-pat00055
,
Figure 112010064244094-pat00056
,
Figure 112010064244094-pat00057
, 및
Figure 112010064244094-pat00058
로서 식별된다. 그런 다음,
Figure 112010064244094-pat00059
,
Figure 112010064244094-pat00060
,
Figure 112010064244094-pat00061
, 및
Figure 112010064244094-pat00062
부음성들의 선호도/순위가 단계 508에서 수정된다.
Figure 112010064244094-pat00063
의 순위는 5에서 3으로 증가될 수 있으며
Figure 112010064244094-pat00064
의 순위는 5에서 4로 증가될 수 있다. 예를 들어,
Figure 112010064244094-pat00065
가 존재하지 않거나 순위가 증가될 수 있을 경우에,
Figure 112010064244094-pat00066
가 표 1에 추가될 수 있다.
Figure 112010064244094-pat00067
는 가장 높은 순위를 갖기 때문에, 이것의 순위는 변동하지 않고 유지될 수 있다.
식별된 부음성 유닛들에 대응하는 수정된 순위/선호도가 단계 510에서 데이터베이스에 저장/갱신된다. 추가적으로 식별된 부음성 유닛들 및 해당하는 예시적 순위/선호도가 데이터베이스에 저장될 수도 있다. 그런 다음, 단계 512에서 상기 방법은 종료된다.
도 6은 본 발명의 다른 실시예에 따른 인스턴스를 훈련하는 방법을 나타내는 플로차트이다. 단계 602에서, 상기 방법이 개시된다. 단계 604에서, 단어들이 목적 언어 코퍼스(corpus)를 검색함으로써 선택된다. 코퍼스는 단어들의 사용 빈도의 순서에서 유지되는 목적 언어의 단어 리스트를 포함한다. 이는 가장 일반적으로 사용되는 단어들에 대해 더 높은 정확도를 획득하도록 한다.
코퍼스의 소스들은 웹 페이지, 문서들, 편지들, 이야기 책들 등과 같은 목적 언어로 된 단어들을 포함하고 있는 것들이 될 수 있다. 목적 언어의 부음성 유닛들을 찾아내는 것은 소스 언어 스팩(specification)과는 무관하며 소스 언어에 대한 어떠한 지식을 요구하지 않는다. 일반적으로, 특정 목적 언어에 대하여, 부음성 유닛들의 식별 및 요구되는 정보를 갖는 부음성 유닛들의 주석은 소스 언어와 는 상관없이 단일의 훈련 실행을 요구하게 된다.
결과적으로, 일단 음역 엔진(204)이 부음성 유닛과 반사 계수들에 대하여 훈련되면, 음역 엔진(204)은 다중의 소스 언어에 대한 목적 언어로서 사용될 수 있다. 따라서, 음역 엔진(204)을 훈련하는데 필요한 시간 및 식별된 부음성 유닛들을 저장하기 위해 필요한 메모리가 절약된다.
단계 606에서 목적 언어의 코퍼스에서 단어들로부터 빈번하게 사용되는 음소열(phoneme sequence)에 의거하여 단어들에 대한 부음성 유닛들을 식별한다. 음소열은 이들의 사용 빈도에 따라서 변경될 수 있다. 부음성 유닛의 식별은 소스-목적 언어 대응을 생성하는데 사용될 수 있다. 달리는, 시드(seed) 입력을 이용하거나 소정의 맵을 이용함으로써 대응이 생성될 수 있다. 소스 및 목적 언어 부음성들 사이의 대응은 반사 계수들에 의거한다. 일예에서, 반사 계수에 의거하여, 소스 및 목적 언어 사이의 대응을 측정하기 위해 베이즈 인수(Bayes factor)를 사용할 수 있다.
단계 608에서, 선호도를 유추하기 위해 식별된 부음성 유닛들이 분석된다. 단계 610에서, 식별된 부음성 유닛들 및 해당 선호도들이 데이터베이스에 저장된다. 식별된 부음성 유닛들 및 해당 선호도들은 임의의 언어로 된 입력을 코퍼스가 쓰여진 언어로 음역하는데 사용될 수 있다. 그런 다음, 단계 612에서 상기 방법은 종료된다.
본 발명의 다양한 실시예들은 다음의 이점을 제공한다. 본 발명에서 설명된 기술들은 사용자에게 입력을 효율적으로 음역하도록 규칙들을 따르는 것을 요구하지 않는다. 예를 들어, "D"는
Figure 112010064244094-pat00068
에 매핑되고, 'd'는
Figure 112010064244094-pat00069
에 매핑된다. 음역 프로세스는 사용자에게 유연성을 제공하여 사용자가 편리한 방식으로 단어들을 입력하게 한다. 예를 들어,
Figure 112010064244094-pat00070
(힌두어)로서 출력을 얻기 위하여, 사용자는 텍스트를 'aaie', 'aaiye', 또는 'aie'로 입력할 수 있다. 음역은 부음성 선호도 모델과 반사 계수를 이용하는 역음역에 작용한다. 결과적으로, 입력을 음역하기 위해 고정된 규칙들을 요구하지 않는다. 또한, 학습이 문자 기반보다는 부음성 유닛에서 행해지므로, 적은 메모리 자원을 이용하여 더 많은 정보를 획득하게 된다.
음역 엔진의 훈련 모델은 소스 언어와 목적 언어 단어의 매핑에 관한 어떠한 지식도 요구하지 않는다. 이는 음역이 소스 언어로부터 독립되게 한다. 결과로써, 방대한 다국어 사전을 필요로 하지 않는다(메모리 절약). 그러므로, 본 발명의 음역 엔진은 처리 전력이 적고 메모리가 한정되어 있는 전자 장치(예를 들어, 임베디드 시스템)에서 효과적으로 사용될 수도 있다.
음역의 학습은 계속 진행하는 프로세스이다. 상기 학습 프로세스는 사용자에게 제시된 단어 리스트로부터 음역된 단어들의 선택에 따라 사용자의 행동에 적응하는 기능성을 제공한다. 또한, 목적 언어 코퍼스의 사용은 음역 엔진의 정확도를 향상시키게 된다.
본 발명의 실시예를 도시하고 설명하였지만, 본 발명과 그 이점들은 이들 실시예에만 한정되는 것은 아니다. 청구범위에 기재된 바와 같은 본 발명의 취지와 범위를 벗어나지 않는 한 수많은 변형, 변경, 변형, 대체, 및 균등물들이 당업자들에게는 명백할 것이다. 따라서, 본 명세서와 도면들은 본 발명을 도시하는 예로서 간주되어야 하면 한정하는 것으로 이해되어서는 안 된다.
102: 소스 언어로 된 텍스트 104: 음역 엔진
106: 목적 언어로 된 텍스트 200: 전자 장치
202: 수신기 204: 음역 엔진
206: 메모리 208: 디스플레이 유닛

Claims (28)

  1. 음역(transliteration) 방법에 있어서,
    소스 언어로 된 텍스트 입력을 수신하는 단계;
    상기 텍스트 입력에서 각 단어에 대한 소스 언어 부음성(sub-phonetic) 유닛들을 생성하는 단계;
    상기 텍스트 입력에서의 상기 각 단어에 대한 상기 소스 언어 부음성 유닛들을 목적 언어 부음성 유닛들로 변환하는 단계;
    데이터베이스에서 각각의 상기 목적 언어 부음성 유닛의 순위를 검색하는 단계;
    상기 목적 언어 부음성 유닛들 및 각각의 상기 목적 언어 부음성 유닛의 순위에 따라 목적 언어 단어들을 생성하는 단계;
    상기 생성된 목적 언어 단어들에 대한 역 음역의 실행에 따라 후보 목적 언어 단어들을 식별하는 단계; 및
    상기 후보 목적 언어 단어들을 표시하는 단계를 포함하는 것을 특징으로 하는 음역방법.
  2. 제1항에 있어서, 상기 각각의 목적 언어 부음성 유닛에 대한 선호도 계수(preference coefficient)를 산출하는 단계; 및
    상기 선호도 계수에 따라 상기 각각의 목적 언어 부음성 유닛으로 선호도에 주석을 다는 단계를 더 포함하고,
    상기 선호도 계수는 상기 소스 언어 부음성 유닛들과 상기 목적 언어 부음성 유닛들 간의 관계에 대한 강도를 나타내는 것을 특징으로 하는 음역방법.
  3. 제2항에 있어서, 상기 선호도 계수는
    베이즈 추정(Bayes estimation)을 이용하여 산출되는 것을 특징으로 하는 음역방법.
  4. 제1항에 있어서, 상기 각각의 소스 언어 부음성 유닛과 상기 각각의 목적 언어 부음성 유닛 사이에 대응(correspondence)을 생성하는 단계를 더 포함하는 것을 특징으로 하는 음역방법.
  5. 제4항에 있어서, 상기 각각의 소스 언어 부음성 유닛과 상기 각각의 목적 언어 부음성 유닛 사이의 상기 대응은,
    상기 각각의 소스 언어 부음성 유닛과 상기 각각의 목적 언어 부음성 유닛과의 매핑에 따라 생성되는 것을 특징으로 하는 음역방법.
  6. 제4항에 있어서, 상기 각각의 소스 언어 부음성 유닛과 상기 각각의 목적 언어 부음성 유닛 사이의 상기 대응은
    반사 계수(reflective coefficient)들을 이용하여 형성되고, 상기 반사 계수들은 소스 언어 부음성 유닛들을 상기 목적 언어 부음성 유닛들로 바인딩(binding) 확률을 제공하는 것을 특징으로 하는 음역방법.
  7. 제6항에 있어서, 상기 반사 계수들은
    베이지안 인수(Bayesian factor)를 이용하여 측정되는 것을 특징으로 하는 음역방법.
  8. 제1항에 있어서, 상기 부음성 유닛들의 인스턴스(instance)들을 훈련하는 단계를 더 포함하는 것을 특징으로 하는 음역방법.
  9. 제8항에 있어서, 상기 인스턴스의 훈련 단계는
    사용자에 의해 선택된 상기 목적 언어 단어들에 따라 피드백을 수신하는 단계;
    상기 사용자에 의해 선택된 목적 언어 단어들의 부음성 유닛들을 식별하는 단계;
    상기 식별된 부음성 유닛들에 대한 선호도 계수들을 변경하는 단계; 및
    상기 식별된 부음성 유닛들과 상기 변경된 선호도 계수들을 저장하는 단계를 포함하는 것을 특징으로 하는 음역방법.
  10. 제1항에 있어서, 상기 표시되는 후보 목적 언어 단어들은 사용자에 의해 선택되는 것을 특징으로 하는 음역방법.
  11. 제8항에 있어서, 상기 인스턴스의 훈련 단계는,
    목적 언어 코퍼스(corpus)로부터 학습된 단어들을 선택하는 단계;
    상기 목적 언어 코퍼스에서 빈번히 사용된 음소열(phoneme sequence)들에 따라 학습된 부음성 유닛들을 형성하는 단계;
    선호도들을 유추하기 위해 학습된 부음성 유닛들을 분석하는 단계; 및
    학습된 부음성 유닛들과 해당 선호도들을 상기 데이터베이스에 저장하는 단계를 포함하는 것을 특징으로 하는 음역방법.
  12. 제1항에 있어서, 상기 후보 목적 언어단어들에서 식별된 상기 부음성 유닛들의 선호도에 따라 상기 후보 목적 언어 단어들을 선별하는 단계를 더 포함하고,
    상기 부음성 유닛들의 상기 선호도들은 선호도 계수 및 소정의 임계값에 따라 식별되는 것을 특징으로 하는 음역방법.
  13. 제12항에 있어서, 상기 목적 언어 단어는 선별된 후보 목적 언어 단어를 상기 소스언어로 역 음역함에 따라 생성되는 것을 특징으로 하는 음역방법.
  14. 제13항에 있어서, 상기 선별된 후보 목적 언어 단어들은
    상기 각각의 소스 언어 부음성 유닛들과 상기 각각의 목적 언어 부음성 유닛들간의 매핑에 따른 소스 언어 부음성 유닛들과 목적 언어 부음성 유닛들 간의 대응 및 반사 계수들을 이용하여 역으로 음역되는 것을 특징으로 하는 음역방법.
  15. 제1항에 있어서, 상기 후보 목적 언어 단어들의 중의성을 해소하는 단계를 더 포함하는 것을 특징으로 하는 음역방법.
  16. 제1항에 있어서, 상기 역 음역의 실행에 따라 후보 목적 언어 단어들을 식별하는 단계는,
    상기 목적 언어 단어들을 분류하여 음역된 목적 언어 부음성 유닛들을 형성하는 단계;
    각각의 음역된 목적 언어 부음성 유닛에 대한 순위를 상기 데이터베이스로부터 검색하는 단계;
    상기 각각의 음역된 부음성 목적 언어 유닛들로부터 상기 소스 언어로 된 단어들을 형성하는 단계; 및
    상기 형성된 소스언어 단어들과 상기 목적 언어 단어들과의 일치하는 정도에 따라 후보 목적 단어들을 식별하는 단계를 포함하는 것을 특징으로 하는 음역방법.
  17. 제1항에 있어서, 목적 언어 코퍼스에 따라 상기 후보 목적 언어 단어들을 확인하는 단계를 더 포함하는 것을 특징으로 하는 음역방법.
  18. 제1항에 있어서, 상기 목적 언어들을 일치율의 순서 또는 사용빈도의 순서에 따른 순위 리스트로 제공하는 것을 특징으로 하는 음역방법.
  19. 음역장치에 있어서,
    소스 언어로 된 텍스트 입력을 수신하도록 구성된 수신기;
    상기 텍스트 입력에서 각각의 단어에 대한 소스 언어 부음성 유닛들을 생성하고, 상기 텍스트 입력에서 상기 각각의 단어에 대한 상기 소스 언어 부음성 유닛들을 목적 언어 부음성 유닛들로 변환하고, 상기 목적 언어 부음성 유닛들 각각의 순위를 데이터베이스로부터 검색하며, 상기 목적 언어 부음성 유닛들 및 상기 목적 언어 부음성 유닛들 각각의 상기 순위에 따라 목적 언어 단어들을 생성하며, 상기 생성된 목적 언어 단어들에 대한 역 음역의 실행에 따라 후보 목적 언어 단어들을 식별하도록 구성된 음역 엔진; 및
    상기 후보 목적 언어 단어들을 표시하도록 구성된 디스플레이 유닛을 포함하는 것을 특징으로 하는 음역장치.
  20. 제19항에 있어서, 상기 목적 언어로 된 상기 후보 목적 언어 단어들에 대한 중의성을 해소하도록 구성된 중의성 해소 모듈(disambiguation module)을 더 포함하는 것을 특징으로 하는 음역장치.
  21. 제19항에 있어서, 상기 음역 엔진은,
    상기 각각의 목적 언어 부음성 유닛에 대한 선호도 계수를 산출하고, 상기 선호도 계수에 따라 상기 각각의 목적 언어 부음성 유닛으로 선호도에 주석을 달도록 구성되며,
    상기 선호도 계수는, 상기 소스 언어 부음성 유닛들과 상기 목적 언어 부음성 유닛들 간의 관례에 대한 강도를 나타내는 것을 특징으로 하는 음역장치.
  22. 제19항에 있어서, 상기 음역 엔진은,
    상기 각각의 소스 언어 부음성 유닛과 상기 각각의 목적 언어 부음성 유닛 사이에 대응(correspondence)을 생성하고,
    상기 대응은, 상기 각각의 소스 언어 부음성 유닛과 상기 각각의 목적 언어 부음성 유닛과의 매핑에 따라 생성되거나 또는 반사 계수(reflective coefficient)들을 이용하여 생성되며,
    상기 반사 계수들은 소스 언어 부음성 유닛들을 상기 목적 언어 부음성 유닛들로 바인딩(binding) 확률을 제공하는 것을 특징으로 하는 음역장치.
  23. 제19항에 있어서, 상기 음역 엔진은,
    상기 부음성 유닛들의 인스턴스(instance)들을 훈련하기 위해, 사용자에 의해 선택된 상기 목적 언어 단어들에 따라 피드백을 수신하고, 상기 사용자에 의해 선택된 목적 언어 단어들의 부음성 유닛들을 식별하며, 상기 식별된 부음성 유닛들에 대한 선호도 계수들을 변경하며, 상기 식별된 부음성 유닛들과 상기 변경된 선호도 계수들을 저장하는 것을 특징으로 하는 음역장치.
  24. 제19항에 있어서, 상기 음역 엔진은,
    상기 부음성 유닛들의 인스턴스(instance)들을 훈련하기 위해, 목적 언어 코퍼스(corpus)로부터 학습된 단어들을 선택하고, 상기 목적 언어 코퍼스에서 빈번히 사용된 음소열(phoneme sequence)들에 따라 학습된 부음성 유닛들을 형성하며, 선호도들을 유추하기 위해 학습된 부음성 유닛들을 분석하며, 학습된 부음성 유닛들과 해당 선호도들을 상기 데이터베이스에 저장하는 것을 특징으로 하는 음역장치.
  25. 제19항에 있어서, 상기 음역 엔진은,
    상기 후보 목적 언어단어들에서 식별된 상기 부음성 유닛들의 선호도에 따라 상기 후보 목적 언어 단어들을 선별하고,
    상기 부음성 유닛들의 상기 선호도들은 선호도 계수 및 소정의 임계값에 따라 식별하는 것을 특징으로 하는 음역장치.
  26. 제25 항에 있어서, 상기 음역 엔진은,
    상기 선별된 후보 목적 언어 단어를 상기 소스언어로 역 음역함에 따라 상기 목적 언어 단어를 생성하고,
    상기 선별된 후보 목적 언어 단어들은 상기 각각의 소스 언어 부음성 유닛들과 상기 각각의 목적 언어 부음성 유닛들간의 매핑에 따른 소스 언어 부음성 유닛들 및 목적 언어 부음성 유닛들 간의 대응 및 반사 계수들을 이용하여 역으로 음역하는 것을 특징으로 하는 음역장치.
  27. 제19항에 있어서, 상기 음역 엔진은,
    상기 역 음역의 실행에 따라 후보 목적 언어 단어들을 식별하기 위해, 상기 목적 언어 단어들을 분류하여 음역된 목적 언어 부음성 유닛들을 형성하고, 각각의 음역된 목적 언어 부음성 유닛에 대한 순위를 상기 데이터베이스로부터 검색하며, 상기 각각의 음역된 부음성 목적 언어 유닛들로부터 상기 소스 언어로 된 단어들을 형성하며, 상기 형성된 소스언어 단어들과 상기 목적 언어 단어들과의 일치하는 정도에 따라 후보 목적 단어들을 식별하는 것을 특징으로 하는 음역장치.
  28. 제19항에 있어서, 상기 음역 엔진은,
    목적 언어 코퍼스에 따라 상기 후보 목적 언어 단어들을 확인하는 것을 특징으로 하는 음역장치.
KR1020100096762A 2009-10-23 2010-10-05 음역 방법 및 장치 KR101753395B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US12/911,384 US8554537B2 (en) 2009-10-23 2010-10-25 Method and device for transliteration

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IN2573CH2009 2009-10-23
IN2573/CHE/2009 2009-10-23

Publications (2)

Publication Number Publication Date
KR20110044697A KR20110044697A (ko) 2011-04-29
KR101753395B1 true KR101753395B1 (ko) 2017-07-03

Family

ID=44049383

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100096762A KR101753395B1 (ko) 2009-10-23 2010-10-05 음역 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101753395B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050182616A1 (en) 2004-02-13 2005-08-18 Microsoft Corporation Corporation In The State Of Washington Phonetic-based text input method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050182616A1 (en) 2004-02-13 2005-08-18 Microsoft Corporation Corporation In The State Of Washington Phonetic-based text input method

Also Published As

Publication number Publication date
KR20110044697A (ko) 2011-04-29

Similar Documents

Publication Publication Date Title
US8554537B2 (en) Method and device for transliteration
US10796105B2 (en) Device and method for converting dialect into standard language
KR102268875B1 (ko) 전자 장치에 텍스트를 입력하는 시스템 및 방법
Şeker et al. Initial explorations on using CRFs for Turkish named entity recognition
JP5997217B2 (ja) 言語変換において複数の読み方の曖昧性を除去する方法
US7979268B2 (en) String matching method and system and computer-readable recording medium storing the string matching method
CN107038158B (zh) 对译语料库制作方法、装置、记录介质以及机器翻译系统
Sak et al. Resources for Turkish morphological processing
US20110184723A1 (en) Phonetic suggestion engine
KR101266361B1 (ko) 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법
KR101544690B1 (ko) 단어 분할 장치, 단어 분할 방법 및 단어 분할 프로그램
KR101573854B1 (ko) 관계어 기반 확률추정 방법을 이용한 통계적 문맥의존 철자오류 교정 장치 및 방법
Prabhakar et al. Machine transliteration and transliterated text retrieval: a survey
KR20230009564A (ko) 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
JP2006338261A (ja) 翻訳装置、翻訳方法及び翻訳プログラム
KR101941692B1 (ko) 한국어 개체명 인식방법 및 장치
US20090063127A1 (en) Apparatus, method, and computer program product for creating data for learning word translation
JP5298834B2 (ja) 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
KR102552811B1 (ko) 클라우드 기반 문법 교정 서비스 제공 시스템
KR101753395B1 (ko) 음역 방법 및 장치
JP5398638B2 (ja) 記号入力支援装置、記号入力支援方法、及びプログラム
KR20170091934A (ko) 상황 인지 기반 번역 장치
CN113822053A (zh) 一种语法错误检测方法、装置、电子设备及存储介质
Oudah et al. Studying the impact of language-independent and language-specific features on hybrid Arabic Person name recognition
JP2006024114A (ja) 機械翻訳装置および機械翻訳コンピュータプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant