KR101326354B1 - 문자 변환 처리 장치, 기록 매체 및 방법 - Google Patents

문자 변환 처리 장치, 기록 매체 및 방법 Download PDF

Info

Publication number
KR101326354B1
KR101326354B1 KR1020137007988A KR20137007988A KR101326354B1 KR 101326354 B1 KR101326354 B1 KR 101326354B1 KR 1020137007988 A KR1020137007988 A KR 1020137007988A KR 20137007988 A KR20137007988 A KR 20137007988A KR 101326354 B1 KR101326354 B1 KR 101326354B1
Authority
KR
South Korea
Prior art keywords
character conversion
character
string
probability
language
Prior art date
Application number
KR1020137007988A
Other languages
English (en)
Other versions
KR20130038959A (ko
Inventor
마사또 하기와라
Original Assignee
라쿠텐 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 라쿠텐 인코포레이티드 filed Critical 라쿠텐 인코포레이티드
Publication of KR20130038959A publication Critical patent/KR20130038959A/ko
Application granted granted Critical
Publication of KR101326354B1 publication Critical patent/KR101326354B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Stored Programmes (AREA)

Abstract

문자 변환 처리 장치(100)는, 문자 변환을 위해서 원 단편이 문자 변환 단편으로 바뀌어 쓰여지는 재기입 확률을 복수 포함하는, 서로 다른 K개의 언어에 대응한 재기입표와, K개의 언어에 대응한 문자 변환표를 생성하는 생성부(105)를 구비한다. 또한, 문자 변환 처리 장치(100)는, 사용된 재기입표에 대응한 언어를 기원으로 하는 원 철자 문자열이 목적 철자 문자열로 문자 변환되는 문자 변환 확률을 해당 언어에 대응한 문자 변환표에 저장한 후에, K개의 문자 변환표의 우도를 산출하는 우도 함수의 기대값을 최대화하도록, K개의 재기입표를 갱신하는 갱신부(107)를 구비한다.

Description

문자 변환 처리 장치, 기록 매체 및 방법{TRANSLITERATION DEVICE, RECORDING MEDIUM, AND METHOD}
본 발명은, 문자 변환 처리 장치, 문자 변환 처리 프로그램, 문자 변환 처리 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 및 문자 변환 처리 방법에 관한 것이다.
종래부터, 어떤 언어의 문자열 sn을 다른 언어의 문자열 tn으로 문자 변환하는 문자 변환 모델을, 해당되는 언어의 문자열 sn으로 나타나는 인명이 중국어, 일본어 및 영어 중 어느 하나를 기원으로 하는 가에 따라 전환하고, 전환된 모델을 이용해서 문자 변환을 행하는 방법이 알려져 있다(예를 들면, 비특허 문헌 1).
또한, 종래부터, 어떤 언어의 문자열 sn을 구성하는 문자열 또는 문자(이하, 단편이라고 한다) α가, 다른 언어의 문자열 tn을 구성하는 단편 β로 바꿔 쓰여지는 재기입 확률에 기초하여, 해당되는 언어의 문자열 sn이 해당 다른 언어의 문자열 tn으로 문자 변환되는 문자 변환 확률을 산출하는 αβ법이 알려져 있다(예를 들면, 비특허 문헌 2).
[비특허문헌]
비특허 문헌 1: 하이조우 리(Haizhou Li) 외 3명저, 「시맨틱 트랜스리터래이션 오브 퍼스널 네임즈(Semantic Transliteration of Personal Names)」, 2007년 6월, p.120-127
비특허 문헌 2: 에릭 브릴(Eric Brill) 외 1명저, 「언 임프로브드 에러 모델 포 노이지 채널 스펠링 커렉션(An improved error model for noisy channel spelling Correction)」, 2000년, p.286-293
여기서, 비특허 문헌 1의 방법에서는, 어떤 언어의 문자열 sn으로 나타나는 인명이 어떤 언어를 기원으로 하는지가 불분명할 경우에는, 문자 변환 모델을 전환할 수 없다. 또한, 비특허 문헌 2의 방법에서는, 어떤 문자열 sn이 어떤 언어를 기원으로 하는지 불분명할 경우에는, 문자 변환 확률을 산출할 수 없다. 이 때문에, 이들 방법으로는, 어떤 언어의 문자열 sn이 다른 언어의 문자열 tn의 문자 변환인지를 고 정밀도로 특정할 수 없다고 하는 문제가 있었다.
본 발명은, 이러한 점을 감안하여 이루어진 것으로, 그 목적으로 하는 부분은, 문자 변환의 대상이 되는 문자열이 어떤 언어를 기원으로 하는지 불분명할 경우라도, 문자 변환된 문자열이 해당 대상을 문자 변환한 것인지를 종래보다도 고 정밀도로 특정할 수 있는 문자 변환 처리 장치, 문자 변환 처리 프로그램, 문자 변환 처리 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 및 문자 변환 처리 방법을 제공하는 것에 있다.
상기 목적을 달성하기 위해서, 본 발명의 제1 관점에 따른 문자 변환 처리 장치는,
임의의 기원 언어에 있어서의 철자로 이루어지는 원 철자 문자열과, 해당 원 철자 문자열을 소정의 목적 언어로 문자 변환한 철자로 이루어지는 목적 철자 문자열의 문자 변환쌍을 복수 포함하는 훈련 집합으로부터, 상기 원 철자 문자열을 구성하는 원 단편과, 상기 목적 철자 문자열을 구성하는 문자 변환 단편과, 문자 변환을 위해서 해당 원 단편이 해당 문자 변환 단편으로 바뀌어 쓰여지는 재기입 확률과의 세트를 복수 포함하는, 서로 다른 K개의 기원 언어에 대응한 K개의 재기입표와, 상기 훈련 집합에 포함되는 문자 변환쌍을 복수 포함하는, 상기 K개의 기원 언어에 대응한 K개의 문자 변환표를 생성하는 생성부,
상기 훈련 집합에 복수 포함되는 문자 변환쌍 각각에 대하여, 상기 K개의 재기입표에 포함되는 재기입 확률을 각각 이용함으로써, 해당 문자 변환쌍의 원 철자 문자열이 해당 재기입표에 대응한 기원 언어를 기원으로 하는 경우에 해당 문자 변환쌍의 목적 철자 문자열로 문자 변환되는 문자 변환 확률을 산출하고 나서, 해당 문자 변환 확률을 해당 문자 변환쌍과 대응지어서 해당 기원 언어에 대응한 문자 변환표에 저장한 후에, 상기 훈련 집합이 얻어진 경우에서의 상기 K개의 문자 변환표의 가능성을 나타내는 우도를 산출하는 우도 함수의 기대값이며, 해당 문자 변환 확률을 이용해서 산출되는 값을 최대화하도록, 상기 K개의 재기입표 각각에 포함되는 재기입 확률을 갱신한 후에, 상기 문자 변환 확률의 산출과 상기 재기입 확률의 갱신을 반복하는 갱신부
를 구비하는 것을 특징으로 한다.
또한, 제1 관점에 따른 문자 변환 처리 장치로서,
상기 K개의 문자 변환표의 각각에 대응한 기원 언어를 기원으로 하는 원 철자 문자열이, 상기 훈련 집합에 포함되는 복수의 원 철자 문자열에서 차지하는 비율을 각각 나타내는, 상기 K개의 문자 변환표의 가중치 파라미터를 초기화하는 초기화부를 더 구비하고,
상기 갱신부는, 상기 훈련 집합에 복수 포함되는 문자 변환쌍의 각각에 대하여, 상기 K개의 문자 변환표에 포함되는 해당 문자 변환 확률의 상기 가중치 파라미터에 의한 가중치 부여 평균에 기초하여, 상기 원 철자 문자열의 기원 언어가 해당 문자 변환표에 대응한 기원 언어인 기원 확률을 각각 산출한 후에, 해당 기원 확률을 다시 이용하여 산출되는 상기 우도 함수의 기대값을 최대화하도록, 상기 K개의 가중치 파라미터를 갱신한 후에, 상기 기원 확률의 산출과 상기 가중치 파라미터의 갱신을 반복한다로 해도 된다.
또한, 제1 관점에 따른 문자 변환 처리 장치로서,
상기 생성부는, 1개의 상기 재기입표를 생성한 후에, 상기 생성된 1개의 재기입표에 포함되는 재기입 확률을, 상기 K개의 언어마다 변화시키는 것에 의해, 상기 K개의 언어에 대응한 K개의 재기입표를 생성한다로 해도 된다.
또한, 제1 관점에 따른 문자 변환 처리 장치로서,
상기 생성부는, 1개의 상기 재기입표를 이용한 αβ법에 의해 1개의 상기 문자 변환표를 생성한 후에, 상기 생성된 1개의 문자 변환표에 포함되는 문자 변환 확률을 변화시키는 것에 의해, 상기 K개의 언어에 대응한 K개의 문자 변환표를 생성하고,
상기 갱신부는, 상기 K개의 문자 변환표의 각각에 포함되는 문자 변환 확률을 EM 알고리즘에 의해 갱신한다로 해도 된다.
또한, 제1 관점에 따른 문자 변환 처리 장치로서,
상기 갱신부는, 상기 갱신에 의한 상기 우도 함수의 기대값의 변화량이, 소정 크기 미만이 될 때까지 상기 갱신을 반복한다로 해도 된다.
또한, 제1 관점에 따른 문자 변환 처리 장치로서,
상기 임의의 기원 언어에 있어서의 철자로 이루어지는 제1 문자열과, 상기 소정의 목적 언어에 있어서의 철자로 이루어지는 제2 문자열을 접수하는 접수부,
상기 K개의 문자 변환표의 각각을 이용함으로써 상기 접수된 제1 문자열이 상기 접수된 제2 문자열로 문자 변환되는 문자 변환 확률을 구하고, 해당 구해진 문자 변환 확률을 출력하는 확률 출력부을
더 구비해도 된다.
또한, 제1 관점에 따른 문자 변환 처리 장치로서,
상기 임의의 기원 언어에 있어서의 철자로 이루어지는 제1 문자열을 접수하는 접수부,
상기 K개의 문자 변환표의 각각을 이용함으로써 상기 접수된 제1 문자열이 문자 변환 될 수 있는 상기 소정의 목적 언어에 있어서의 후보 문자열과, 해당 제1 문자열이 해당 후보 문자열로 문자 변환되는 문자 변환 확률을 구하고, 해당 구해진 문자 변환 확률이 높은 순으로 해당 구해진 후보 문자열을 출력하는 후보 출력부
를 더 구비해도 된다.
또한, 제1 관점에 따른 문자 변환 처리 장치로서,
상기 접수부는, 상기 훈련 집합에 포함되어 있지 않은 제1 문자열을 접수해도 된다.
상기 목적을 달성하기 위해서, 본 발명의 제2 관점에 따른 문자 변환 처리 프로그램은,
컴퓨터를,
임의의 기원 언어에 있어서의 철자로 이루어지는 원 철자 문자열과, 해당 원 철자 문자열을 소정의 목적 언어로 문자 변환한 철자로 이루어지는 목적 철자 문자열의 문자 변환쌍을 복수 포함하는 훈련 집합으로부터, 상기 원 철자 문자열을 구성하는 원 단편과, 상기 목적 철자 문자열을 구성하는 문자 변환 단편과, 문자 변환을 위해서 해당 원 단편이 해당 문자 변환 단편으로 바뀌어 쓰여지는 재기입 확률과의 세트를 복수 포함하는, 서로 다른 K개의 기원 언어에 대응한 K개의 재기입표와, 상기 훈련 집합에 포함되는 문자 변환쌍을 복수 포함하는, 상기 K개의 기원 언어에 대응한 K개의 문자 변환표를 생성하는 생성부,
상기 훈련 집합에 복수 포함되는 문자 변환쌍의 각각에 대하여, 상기 K개의 재기입표에 포함되는 재기입 확률의 각각을 이용함으로써, 해당 문자 변환쌍의 원 철자 문자열이 해당 재기입표에 대응한 기원 언어를 기원으로 하는 경우에 해당 문자 변환쌍의 목적 철자 문자열로 문자 변환되는 문자 변환 확률을 산출하고나서, 해당 문자 변환 확률을 해당 문자 변환쌍과 대응지어서 해당 기원 언어에 대응한 문자 변환표에 저장한 후에, 상기 훈련 집합이 얻어진 경우에서의 상기 K개의 문자 변환표의 가능성을 나타내는 우도를 산출하는 우도 함수의 기대값이며, 해당 문자 변환 확률을 이용해서 산출되는 값을 최대화하도록, 상기 K개의 재기입표의 각각에 포함되는 재기입 확률을 갱신한 후에, 상기 문자 변환 확률의 산출과 상기 재기입 확률의 갱신을 반복하는 갱신부
로서 기능시키는 것을 특징으로 한다.
상기 목적을 달성하기 위해서, 본 발명의 제3 관점에 따른 컴퓨터 판독 가능한 기록 매체는,
컴퓨터를,
임의의 기원 언어에 있어서의 철자로 이루어지는 원 철자 문자열과, 해당 원 철자 문자열을 소정의 목적 언어로 문자 변환한 철자로 이루어지는 목적 철자 문자열의 문자 변환쌍을 복수 포함하는 훈련 집합으로부터, 상기 원 철자 문자열을 구성하는 원 단편과, 상기 목적 철자 문자열을 구성하는 문자 변환 단편과, 문자 변환을 위해서 해당 원 단편이 해당 문자 변환 단편으로 바뀌어 쓰여지는 재기입 확률과의 세트를 복수 포함하는, 서로 다른 K개의 기원 언어에 대응한 K개의 재기입표와, 상기 훈련 집합에 포함되는 문자 변환쌍을 복수 포함하는, 상기 K개의 기원 언어에 대응한 K개의 문자 변환표를 생성하는 생성부,
상기 훈련 집합에 복수 포함되는 문자 변환쌍의 각각에 대하여, 상기 K개의 재기입표에 포함되는 재기입 확률의 각각을 이용함으로써, 해당 문자 변환쌍의 원 철자 문자열이 해당 재기입표에 대응한 기원 언어를 기원으로 하는 경우에 해당 문자 변환쌍의 목적 철자 문자열로 문자 변환되는 문자 변환 확률을 산출하고나서, 해당 문자 변환 확률을 해당 문자 변환쌍과 대응지어서 해당 기원 언어에 대응한 문자 변환표에 저장한 후에, 상기 훈련 집합이 얻어진 경우에서의 상기 K개의 문자 변환표의 가능성을 나타내는 우도를 산출하는 우도 함수의 기대값이며, 해당 문자 변환 확률을 이용해서 산출되는 값을 최대화하도록, 상기 K개의 재기입표의 각각에 포함되는 재기입 확률을 갱신한 후에, 상기 문자 변환 확률의 산출과 상기 재기입 확률의 갱신을 반복하는 갱신부,
로서 기능시키는 것을 특징으로 하는 문자 변환 처리 프로그램을 기록하고 있다.
상기 목적을 달성하기 위해서, 본 발명의 제4 관점에 따른 문자 변환 처리 방법은,
생성부 및 갱신부를 구비하는 문자 변환 처리 장치가 실행하는 방법으로서,
상기 생성부가, 임의의 기원 언어에 있어서의 철자로 이루어지는 원 철자 문자열과, 해당 원 철자 문자열을 소정의 목적 언어로 문자 변환한 철자로 이루어지는 목적 철자 문자열의 문자 변환쌍을 복수 포함하는 훈련 집합으로부터, 상기 원 철자 문자열을 구성하는 원 단편과, 상기 목적 철자 문자열을 구성하는 문자 변환 단편과, 문자 변환을 위해서 해당 원 단편이 해당 문자 변환 단편으로 바뀌어 쓰여지는 재기입 확률의 세트를 복수 포함하는, 서로 다른 K개의 기원 언어에 대응한 K개의 재기입표와, 상기 훈련 집합에 포함되는 문자 변환쌍을 복수 포함하는, 상기 K개의 기원 언어에 대응한 K개의 문자 변환표를 생성하는 생성 스텝,
상기 갱신부가, 상기 훈련 집합에 복수 포함되는 문자 변환쌍의 각각에 대하여, 상기 K개의 재기입표에 포함되는 재기입 확률의 각각을 이용함으로써, 해당 문자 변환쌍의 원 철자 문자열이 해당 재기입표에 대응한 기원 언어를 기원으로 하는 경우에 해당 문자 변환쌍의 목적 철자 문자열로 문자 변환되는 문자 변환 확률을 산출하고나서, 해당 문자 변환 확률을 해당 문자 변환쌍과 대응지어서 해당 기원 언어에 대응한 문자 변환표에 저장한 후에, 상기 훈련 집합이 얻어진 경우에서의 상기 K개의 문자 변환표의 가능성을 나타내는 우도를 산출하는 우도 함수의 기대값이며, 해당 문자 변환 확률을 이용해서 산출되는 값을 최대화하도록, 상기 K개의 재기입표의 각각에 포함되는 재기입 확률을 갱신한 후에, 상기 문자 변환 확률의 산출과 상기 재기입 확률의 갱신을 반복하는 갱신 스텝
을 갖는 것을 특징으로 한다.
본 발명에 따른 문자 변환 처리 장치, 문자 변환 처리 프로그램, 문자 변환 처리 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 및 문자 변환 처리 방법에 따르면, 문자 변환 대상이 되는 문자열이 어떤 언어를 기원으로 하는지 불분명할 경우라도, 문자 변환된 문자열이 해당 대상을 문자 변환한 것 인지를 종래보다도 고 정밀도로 특정할 수 있다.
도 1은 본 발명의 실시예에 따른 문자 변환 처리 시스템의 1 구성예를 나타내는 시스템 구성도이다.
도 2a는 단말 장치가 표시하는 입력 화면의 일례를 나타내는 도면이다.
도 2b는 단말 장치가 표시하는 결과 표시 화면의 일례를 나타내는 도면이다.
도 3은 본 발명의 실시예에 따른 문자 변환 처리 장치의 1 구성예를 나타내는 하드웨어 구성도이다.
도 4는 본 발명의 실시예에 따른 문자 변환 처리 장치가 실행하는 훈련 집합 생성 처리의 일례를 나타내는 플로우차트이다.
도 5는 본 발명의 실시예에 따른 문자 변환 처리 장치가 발휘하는 기능의 일례를 나타내는 기능 블록도이다.
도 6a는 기초 문자 변환 테이블의 일례를 나타내는 도면이다.
도 6b는 제1 문자 변환 테이블의 일례를 나타내는 도면이다.
도 6c는 제2 문자 변환 테이블의 일례를 나타내는 도면이다.
도 6d는 제3 문자 변환 테이블의 일례를 나타내는 도면이다.
도 7은 문자 변환 처리 장치가 실행하는 문자 변환 처리의 일례를 나타내는 플로우차트이다.
도 8a는 기초 재기입 테이블의 일례를 나타내는 도면이다.
도 8b는 제1 재기입 테이블의 일례를 나타내는 도면이다.
도 8c는 제2 재기입 테이블의 일례를 나타내는 도면이다.
도 8d는 제3 재기입 테이블의 일례를 나타내는 도면이다.
도 9는 재기입 횟수 테이블의 일례를 나타내는 도면이다.
도 10은 문자 변환 처리 장치가 실행하는 제1 생성 처리의 일례를 나타내는 플로우차트이다.
도 11은 문자 변환 처리 장치가 실행하는 제2 생성 처리의 일례를 나타내는 플로우차트이다.
도 12a는 EM 알고리즘을 따른 처리의 실행에 의해 생기는 문자 변환 확률의 변화를 설명하기 위한 도면이다.
도 12b는 가중치 문자 변환 확률의 변화를 설명하기 위한 도면이다.
도 12c는 재기입 확률의 변화를 설명하기 위한 도면이다.
도 13a는 본 발명의 실시예의 변형예 2에 따른 단말 장치가 표시하는 입력 화면의 일례를 나타내는 도면이다.
도 13b는 변형예 2에 따른 단말 장치가 표시하는 결과 표시 화면의 일례를 나타내는 도면이다.
도 14는 본 발명의 실시예의 변형예 2에 따른 문자 변환 처리 장치가 실행하는 문자 변환 처리의 다른 예를 나타내는 플로우차트이다.
도 15는 본 발명의 실시예의 변형예 2에 따른 문자 변환 처리 장치가 발휘하는 기능의 일례를 나타내는 기능 블록도이다.
도 16은 본 발명의 실시예의 변형예 3에 따른 문자 변환 처리 시스템의 1 구성예를 나타내는 시스템 구성도이다.
도 17은 검색 엔진이 회신하는 검색 결과 화면의 일례를 나타내는 도면이다.
도 18은 본 발명의 실시예의 변형예 3에 따른 문자 변환 처리 장치가 실행하는 문자 변환 처리의 다른 예를 나타내는 플로우차트이다.
이하, 본 발명의 실시예에 대해서 첨부 도면을 참조하면서 설명한다.
도 1의 문자 변환 처리 시스템(1)은, 컴퓨터 통신망(10)(이하, 간단히 통신망(10)이라고 한다)과, 본 발명의 문자 변환 처리 장치(100)와, 단말 장치(200)와, 일본어 데이터 베이스 서버(이하, 일본어 DB 서버라고 한다, 301) 및 외국어 데이터 베이스 서버(이하, 외국어 DB 서버라고 한다, 302)로 구성된다.
통신망(10)은, 예를 들면, 인터넷으로 구성된다. 통신망(10)은, LAN(Local Area Network) 또는 공중 회선망이어도 좋다.
문자 변환 처리 장치(100)에 대해서 설명하기 전에, 단말 장치(200)와 일본어 DB 서버(301) 및 외국어 DB 서버(302)에 대해서 설명한다.
단말 장치(200)는, 예를 들면, LCD(Liquid Crystal Display) 등의 표시부와, 키보드 등의 입력부를 구비한 퍼스널 컴퓨터로 구성된다. 단말 장치(200)는, 도 2a에 도시하는 바와 같은 입력 화면 FI1을 표시함으로써, 입력쌍을 입력하도록 촉구하는 표시를 행한다. 이 입력쌍은, 임의의 기원 언어에 있어서의 철자로 이루어지는 제1 문자열과, 해당 제1 문자열을 소정의 목적 언어의 문자열로 문자 변환 한 문자열이면 유저가 생각하는 문자열이며, 소정의 목적 언어에 있어서의 철자로 이루어지는 제2 문자열의 쌍을 말한다.
또한, 문자 변환이란, 예를 들면, 「Barack Obama」를 「버락 오바마」 라고 번역하듯이, 표기 체계가 다른 언어 간에 있어서의 음운적인 번역을 말한다. 본 실시예에 있어서, 소정의 목적 언어는 일본어이며, 임의의 기원 언어는, 예를 들면, 영어, 불어, 스페인어, 독일어, 폴란드어 및 러시아어 등의 표기에 알파벳을 이용하는 언어이면 어떤 언어이어도 상관없다고 해서 설명하지만, 이에 한정되는 것은 아닌다.
또한, 제1 문자열의 기원 언어는, 해당 제1 문자열의 읽는 법을 정하는 언어를 말한다. 예를 들면, 제1 문자열이 「monget」이며, 해당 문자열이 문자 상표를 구성할 경우를 예로 들어서 설명한다. 해당 상표의 사용자가 해당 문자 상표를 불어 읽기로 「몽제」라고 호칭하듯이, 해당 상표가 달린 상품의 판매자나 광고 회사 등에 의뢰하는 경우에는, 해당 제1 문자열의 기원 언어는 불어이다. 또한, 예를 들면, 제1 문자열이 「Monet」이며, 해당 문자열이 프랑스인의 이름을 나타낼 경우를 예로 들어서 설명한다. 이 경우, 제1 문자열 「Monet」는 불어 읽기로 「모네」라고 읽혀지므로, 해당 제1 문자열의 기원 언어는 불어이다. 즉, 제1 문자열의 기원 언어는, 제1 문자열을 사용하는 자가 정하는 언어이어도 좋고, 제1 문자열로 나타내는 내용에 의해 필연적으로 정해지는 것이어도 좋다. 그러나, 기원 언어는, 예를 들면, 영어 「etc」가 라틴어 「et cetera」를 기원으로 한다고 하는 것과 같은, 어떤 문자열의 어원이 된 언어를 말하는 것은 아니다.
도 2a의 입력 화면 FI1을 표시한 후에, 단말 장치(200)는, 유저의 조작에 따른 각종 신호를 문자 변환 처리 시스템(1)에 입력하고, 입력된 신호에 기초해 입력쌍을 생성하고, 생성한 입력쌍을 나타내는 정보를 문자 변환 처리 장치(100)에 송신한다. 그 후, 단말 장치(200)는, 문자 변환 처리 장치(100)로부터 회신된 정보를 수신하고, 수신된 정보에 기초하여, 도 2b에 도시하는 바와 같은 결과 표시 화면 FO1을 표시한다. 그 후, 단말 장치(200)는, 해당 입력쌍을 구성하는 제1 문자열 및 제2 문자열과, 해당 제2 문자열이 해당 제1 문자열의 문자 변환인 확률을 결과 표시 화면 FO1에 표시한다.
일본어 DB 서버(301) 및 외국어 DB 서버(302)는, 예를 들면, Wikipedia(등록상표) 및 DBpedia 등의 불특정 유저가 편집하도록 허가된 온라인 백과 사전의 해설 페이지를 나타내는 정보를 관리하는 데이터 베이스를 갖는다. 또한, 일본어 DB 서버(301) 및 외국어 DB 서버(302)는, 해당 데이터 베이스로 관리되는 정보를 인터넷 상에 공개한다. 또한, 일본어 DB 서버(301)는, 일본어 해설 페이지를 나타내는 정보를 관리 및 공개하고, 외국어 DB 서버(302)는, 외국어의 해설 페이지를 나타내는 정보를 관리 및 공개한다. 일본어 DB 서버(301)가 공개하는 일본어 해설 페이지에는, 해당 일본어 해설 페이지와 같은 사물 또는 인명을 해설하는 외국어의 해설 페이지(이하, 대응 페이지라고 한다)의 URL(Uniform Resource Locator)이 기재되어 있다.
문자 변환 처리 장치(100)는, 웹 서버 소프트웨어를 인스톨된 서버기이다. 문자 변환 처리 장치(100)는, 단말 장치(200)로부터, 입력쌍을 나타내는 정보를 수신하고, 수신된 정보로 나타내는 입력쌍이 서로 문자 변환 관계에 있는 확률을 산출하고, 산출된 확률을 나타내는 정보를 단말 장치(200)에 회신한다.
문자 변환 처리 장치(100)는, 도 3에 도시한 바와 같이, CPU(Central Processing Unit, 100a), ROM(Read Only Memory, 100b), RAM(Random Access Memory, 100c), 하드디스크(100d), 미디어 컨트롤러(100e), LAN카드(Local Area Network, 100f), 비디오 카드(100g), LCD(Liquid Crystal Display, 100h), 키보드(100i), 스피커(100j) 및 마우스(100k)로 구성된다.
CPU(100a)는, ROM(100b) 또는 하드디스크(100d)에 저장된 프로그램에 따라서 소프트웨어 처리를 실행함으로써, 문자 변환 처리 장치(100)의 전체 제어를 행한다. RAM(100c)은, CPU(100a)에 의한 프로그램의 실행 시에 있어서, 처리 대상으로 하는 데이터를 일시적으로 기억한다.
하드디스크(100d)는, 각종 데이터를 저장한 테이블을 기억하는 정보 기억부이다. 또한, 문자 변환 처리 장치(100)는, 하드디스크(100d) 대신에, 플래시 메모리를 구비해도 좋다.
미디어 컨트롤러(100e)는, 플래시 메모리, CD(Compact Disc), DVD(Digital Versatile Disc) 및 블루레이 디스크(Blu-ray Disc)(등록상표)를 포함하는 기록 매체로부터 각종 데이터 및 프로그램을 읽어낸다.
LAN 카드(100f)는, 통신망(10)을 통해서 접속하는 단말 장치(200), 일본어 DB 서버(301) 및 외국어 DB 서버(302) 사이에서 데이터를 송수신한다. 키보드(100i) 및 마우스(100k)는, 유저 조작에 따른 신호를 입력한다. LAN 카드(100f)는, 정보 취득부, 접수부 및 확률 출력부를 구성한다.
비디오 카드(100g)는, CPU(100a)로부터 출력된 디지털 신호에 기초해서 화상을 묘화(즉, 렌더링) 함과 아울러, 묘화된 화상을 나타내는 화상 신호를 출력한다. LCD(100h)는, 비디오 카드(100g)로부터 출력된 화상 신호에 따라서 화상을 표시한다. 또한, 문자 변환 처리 장치(100)는, LCD(100h) 대신에, PDP(Plasma Display Panel) 또는 EL(Electroluminescence) 디스플레이를 구비해도 좋다. 스피커(100j)는, CPU(100a)로부터 출력된 신호에 기초해서 음성을 출력한다.
문자 변환 처리 장치(100)의 CPU(100a)는, 도 3의 하드웨어를 이용해, 도 4의 훈련 집합 생성 처리를 실행함으로써, 도 5에 도시한 바와 같은 훈련 집합 생성부(101)로서 기능한다. 또한, CPU(100a)는, LAN 카드(100f)와 협동해서 정보 취득부(102)로서 기능한다. 또한, CPU(100a)는, 하드디스크(100d)와 협동해서 정보 기억부(103)로서 기능한다.
도 4의 훈련 집합 생성 처리에 대해서 설명하기 전에, 정보 기억부(103)가 기억하는 테이블이며, 훈련 집합 생성 처리의 실행에 이용되는 데이터가 저장된 테이블에 대해서 설명한다.
정보 기억부(103)는, 도 6a에 도시하는 바와 같은 기초 문자 변환 테이블을 기억하고 있다. 도 6a의 기초 문자 변환 테이블은, 도 6b 내지 도 6d에 도시하는 제1 문자 변환 테이블 내지 제3 문자 변환 테이블을 생성하기 위해서 이용되는 테이블이다. 또한, 제1 문자 변환 테이블 내지 제3 문자 변환 테이블에 대해서는 후술한다.
도 6a의 기초 문자 변환 테이블에는, 임의의 기원 언어에 있어서의 철자로 이루어지는 원 철자 문자열 sn을 나타내는 정보와, 해당 철자열 sn을 소정의 목적 언어로 문자 변환한 철자로 이루어지는 목적 철자 문자열 tn을 나타내는 정보와, 해당 원 철자 문자열 sn과 해당 목적 철자 문자열 tn의 쌍(이하, 문자 변환쌍이라고 한다)을 식별하는 번호(이하, 문자 변환쌍 번호라고 한다) n을 나타내는 정보와, 해당 원 철자 문자열 sn이 해당 목적 철자 문자열 tn으로 문자 변환되는 문자 변환 확률 Pαβ(sn|tn)을 나타내는 정보가 대응되어져 저장되어 있다.
구체예로서는, 문자 변환쌍 번호 「1」로 식별되는 문자 변환쌍은, 「flextime」이라고 하는 원 철자 문자열과, 「플렉스타임」이라고 하는 목적 철자 문자열로 구성된다. 또한, 도 6a의 기초 문자 변환 테이블에 저장된 복수의 정보로 나타내는 문자 변환쌍을 요소로 하는 집합을 훈련 집합이라고 한다.
도 4의 훈련 집합 생성 처리를 개시하면, 훈련 집합 생성부(101)는, 훈련 집합을 공집합으로 하고, 훈련 집합에 추가된 문자 변환쌍의 수(이는, 문자 변환쌍 번호에 일치한다)를 나타내는 변수 n에 값 「1」을 대입함으로써 해당 변수 n을 초기화한다(스텝 S01). 다음으로, 도 5의 정보 취득부(102)는, 일본어 DB 서버(301)로부터, 일본어 온라인 백과사전을 구성하는 임의의 해설 페이지를 나타내는 정보이며, 아직 취득되어 있지 않은 정보를 취득한다(스텝 S02). 다음으로, 훈련 집합 생성부(101)는, 취득된 정보로 나타나는 해설 페이지로부터, 해당 해설 페이지의 해설 항목에 기재된 일본어의 문자열을 취득한다(스텝 S03).
그 후, 훈련 집합 생성부(101)는, 취득된 일본어의 문자열이 다른 언어(즉, 외국어)의 문자열을 문자 변환한 것 인지의 여부를, 해당 일본어의 문자열이 가타카나만으로 구성되는지의 여부에 기초해서 판별한다(스텝 S04). 일본어에서는, 외래어를 가타카나만으로 표기하기 때문이다.
스텝 S04에 있어서, 취득된 일본어의 문자열이 문자 변환된 것이 아니라고 판별되었을 경우에는(스텝 S04; No), 훈련 집합 생성부(101)는, 스텝 S02으로 되돌아가 상기 처리를 반복한다. 이에 대하여, 취득된 일본어의 문자열이 문자 변환된 것이라고 판별되었을 경우에는(스텝 S04; Yes), 훈련 집합 생성부(101)는, 취득된 일본어의 문자열이 고유 명사인지의 여부를 판별한다(스텝 S05). 또한, 스텝 S05의 판별 방법은, 예를 들면, 취득된 일본어의 문자열이, 정보 기억부(103)에 미리 기억된 정보로 나타나는 고유 명사와 일치하는 지의 여부를 판별하는 방법이어도 좋고, 다른 공지의 방법이어도 좋다.
스텝 S05에 있어서, 취득된 일본어의 문자열이 고유 명사가 아니라고 판별되면(스텝 S05; No), 훈련 집합 생성부(101)는, 스텝 S02로부터 상기 처리를 반복한다. 통상적으로, 해설 페이지의 해설 항목에는, 해당 해설 페이지에서 해설되는 사물의 명칭 또는 사람의 이름 등의 고유 명사를 나타내는 문자열이 기재되기 때문에, 해설 항목으로부터 취득된 문자열이 고유 명사가 아닐 경우에는, 올바르게 문자열이 취득되지 않았을 가능성이 높기 때문이다.
스텝 S05에 있어서, 취득된 일본어의 문자열이 고유 명사라고 판별되면(스텝 S05; Yes), 훈련 집합 생성부(101)는, 스텝 S02에서 취득된 일본어 해설 페이지로부터, 해당 일본어 해설 페이지에 대응하는 대응 페이지(즉, 외국어의 온라인 백과사전의 대응 페이지)의 URL을 추출한다. 다음으로, 훈련 집합 생성부(101)는, 추출된 URL에 기초해서 해당 페이지를 나타내는 정보를 외국어 DB 서버(302)로부터 취득한다(스텝 S06).
또한, 일본어 해설 페이지에는, 해당 일본어 해설 페이지와 같은 사물 또는 인명을 해설하는 외국어의 대응 페이지의 URL이 기재되고 있고, 훈련 집합 생성부(101)는, 일본어 해설 페이지에 미리 기재된 대응 페이지의 URL을 추출한다고 해서 설명했지만, 이에 한정되지는 않는다. 예를 들면, 훈련 집합 생성부(101)는, 일본어 해설 페이지의 URL에 포함되는 서브 도메인이며, 일본어 DB 서버(301)가 설치된 국가를 식별하는 서브 도메인을 「jp」로부터 「en」, 「de」 또는 「fr」 등으로 변경함으로써, 외국어의 대응 페이지의 URL을 취득해도 좋다.
스텝 S06의 후에, 훈련 집합 생성부(101)는, 취득된 정보로 나타나는 해설 페이지로부터, 해당 해설 페이지의 해설 항목에 기재된 외국어의 문자열을 취득한다(스텝 S07). 다음으로, 훈련 집합 생성부(101)는, 취득된 일본어의 문자열 및 외국어의 문자열로부터, 괄호 및 해당 괄호로 묶어진 문자열을 제거한다. 예를 들면, 야마다 XX(개그맨)와 같이, 같은 이름의 유명인이 복수 존재 하는 경우 등에 있어서, 해당 이름 뒤에 괄호 쓰기로 덧붙여지는 설명 등의 노이즈를 제거하기 위해서다.
그 후, 훈련 집합 생성부(101)는, 스텝 S03에서 취득된 일본어의 문자열을 원 철자 문자열 sn이라고 하고, 스텝 S07에서 취득된 외국어의 문자열을 목적 철자 문자열 tn이라고 한다. 다음으로, 훈련 집합 생성부(101)는, 해당 원 철자 문자열 sn과 해당 목적 철자 문자열 tn의 쌍을 문자 변환쌍으로 한 후에(스텝 S08), 해당 문자 변환쌍을 훈련 집합에 추가한다(스텝 S09). 그 후, 훈련 집합 생성부(101)는, 도 6a의 기초 문자 변환 테이블로, 해당 문자 변환쌍의 문자 변환 번호 n을 나타내는 정보와, 해당 문자 변환쌍을 구성하는 원 철자 문자열 sn을 나타내는 정보와, 목적 철자 문자열 tn을 나타내는 정보를 대응지어서 저장한다(스텝 S10).
그 후, 훈련 집합 생성부(101)는, 문자 변환 번호를 나타내는 변수 n의 값을 값 「1」만 인크리먼트 한 후에(스텝 S11), 변수 n의 값이 소정값 m 이상인지의 여부를 판별한다(스텝 S12). 또한, 소정값 m을 나타내는 정보는, 도 5의 정보 기억부(103)에 기억되어 있다. 본 실시예에서, 소정값 m은 「11,000」이라고 하여 설명했지만, 이에 한정되는 것이 아니고, 당업자는 적절한 값을 실험에 의해 정할 수 있다.
스텝 S12에 있어서, 변수 n의 값이 소정값 m 미만이라고 판별되면(스텝 S12; No), 훈련 집합 생성부(101)는, 스텝 S02로부터 상기 처리를 반복한다. 이에 대하여, 변수 n의 값이 소정값 m이상이라고 판별되면(스텝 S12; Yes), 훈련 집합 생성부(101)는, 훈련 집합 생성 처리의 실행을 종료한다.
문자 변환 처리 장치(100)의 CPU(100a)는, 도 3의 하드웨어를 이용하고, 도 7의 문자 변환 처리를 실행함으로써, 도 5에 도시한 바와 같은 제1 생성부(105a) 및 제2 생성부(105b)를 갖는 생성부(105), 초기화부(106) 및 기대값 산출부(107a), 판정부(107b) 및 최대화부(107c)를 갖는 갱신부(107)로서 또한 기능한다. 또한, CPU(100a)는, LAN 카드(100f)와 협동해서 확률 출력부(108)로서 또한 기능한다.
도 7의 문자 변환 처리에 대해서 설명하기 전에, 정보 기억부(103)가 기억하는 테이블이며, 문자 변환 처리의 실행에 이용되는 정보가 저장된 테이블에 대해서 설명한다.
정보 기억부(103)는, 도 8a에 도시하는 바와 같은 기초 재기입 테이블을 기억하고 있다. 도 8a 기초 재기입 테이블은, 도 8b 내지 도 8d의 제1 재기입 테이블 내지 제3 재기입 테이블을 작성하기 위해서 이용되는 테이블이다. 또한, 제1 재기입 테이블 내지 제3 재기입 테이블에 대해서는 후술한다.
도 8a의 기초 재기입 테이블에는, 도 6a의 기초 문자 변환 테이블에 저장된 정보로 나타나는 원 철자 문자열 sn의 단편(이하, 원 단편이라고 한다) α를 나타내는 정보와, 해당 원 철자 문자열을 문자 변환한 목적 철자 문자열 tn의 단편이며, 해당 원 단편 α에 대응하는 단편(이하, 문자 변환 단편이라고 한다) β를 나타내는 정보와, 해당 원 단편 α와 해당 문자 변환 단편 β와의 쌍(이하, 단편쌍이라고 한다)을 식별하는 단편쌍 번호 j를 나타내는 정보와, 문자 변환을 위해서 해당 원 단편α가 해당 문자 변환 단편 β로 바뀌어 쓰여지는 확률(이하, 재기입 확률이라고 한다)을 나타내는 정보가 대응지어져 저장되어 있다. 또한, 원 단편 및 문자 변환 단편은, 둘다 1 문자이어도 좋고, 2 문자 이상으로 이루어지는 문자열이어도 좋다.
구체예로서는, 단편쌍 번호 「1」로 식별되는 단편쌍은, 「^f」라고 하는 원 단편α와 「^후」라는 문자 변환 단편 β로 구성된다. 또한, 단편쌍 번호 「5」로 식별되는 단편쌍은, 「get$」라는 원 단편α과, 「제$」라는 문자 변환 단편 β로 구성되고, 단편쌍 번호 「6」으로 식별되는 단편쌍은, 「get$」이라는 원 단편α와, 「겟$」이라는 문자 변환 단편 β로 구성된다. 이렇게, 같은 원 단편 「get$」에 대하여 다른 문자 변환 단편 「제$」와 「겟$」이 대응지어져 있는 것은, 훈련 집합에, 이하에 설명하는 2개의 문자 변환쌍이 포함되어 있었기 때문이다. 1개는, 말미가 「get$」인 원 철자 문자열 sn과, 해당 원 철자 문자열 sn을 불어 읽기 한 음운에 기초해서 문자 변환된 목적 철자 문자열 tn의 문자 변환쌍이다. 또 하나는, 말미가 「get$」인 원 철자 문자열 sn과, 해당 원 철자 문자열 sn을 영어 읽기 한 음운에 기초해서 문자 변환된 목적 철자 문자열 tn의 문자 변환쌍이다. 또한, 「^」은, 직후에 이어지는 문자가 문자열의 선두인 것을 나타내는 기호이며, 「$」은, 직전의 문자가 문자열의 말미인 것을 나타내는 기호이다.
또한, 정보 기억부(103)는, 도 9에 도시한 바와 같은 재기입 횟수 테이블을 기억하고 있다. 도 9의 재기입 횟수 테이블에는, 문자 변환쌍 번호 n을 나타내는 정보와, 단편쌍 번호 j를 나타내는 정보와, 재기입 횟수 fn(α→β)를 나타내는 정보가 대응지어져 저장되어 있다. 이 재기입 횟수 fn(α→β)는, 해당 번호 n으로 식별되는 문자 변환쌍을 구성하는 원 철자 문자열 sn을, 해당 문자 변환쌍을 구성하는 목적 철자 문자열 tn으로 문자 변환하기 위해서, 단편쌍 번호 j로 식별되는 단편쌍의 원 단편α을 문자 변환 단편 β로 바꿔 쓴 횟수이다.
구체예로서는, 문자 변환쌍 번호 「1」로 식별되는 문자 변환쌍을 구성하는 원 철자 문자열 「flextime」을 목적 철자 문자열 「플렉스타임」으로 문자 변환하기 위해서, 단편쌍 번호 「2」로 식별되는 단편쌍을 구성하는 원 단편 「le」을 문자 변환 단편 「레」로 바꿔 쓴 재기입 횟수는 「1」회이다. 이에 대하여, 원 철자 문자열 「flextime」을 목적 철자 문자열 「플렉스타임」으로 문자 변환하기 위해서, 단편쌍 번호 「3」으로 식별되는 단편쌍의 원 단편 「le」을 문자 변환 단편 「루」로 바꿔 쓴 재기입 횟수는 「0」회이다. 또한, 문자 변환쌍 번호 「9」로 식별되는 문자 변환쌍의 원 철자 문자열 「mama」를 목적 철자 문자열 「마마」로 문자 변환하기 위해서, 단편쌍 번호 「100」으로 식별되는 단편쌍의 원 단편 「ma」를 문자 변환 단편 「마」로 바꿔 쓴 재기입 횟수는 2회이다.
도 7의 문자 변환 처리가 개시되면, 도 5의 접수부(104)는, 단말 장치(200)로부터 송신된 정보로 나타나는 입력쌍을 접수한다(스텝 S31). 다음으로, 생성부(105)는, 접수한 입력쌍을 문자 변환쌍으로 간주한다. 그 후, 생성부(105)는, 해당 문자 변환쌍을 훈련 집합에 추가하고, 해당 문자 변환쌍의 문자 변환쌍 번호를 m+1로 하고, 훈련 집합에 속하는 문자 변환쌍의 수를 나타내는 변수 N을 m+1이라고 한다. 다음으로, 생성부(105)는, 도 6a의 기초 문자 변환 테이블에, 문자 변환쌍 번호 N을 나타내는 정보와, 해당 문자 변환쌍을 나타내는 정보를 대응지어서 추가 저장한다(스텝 S32).
그 후, 생성부(105)가 갖는 제1 생성부(105a)는, 도 10에 도시한 바와 같은 제1 생성 처리를 실행한다(스텝 S33).
도 10의 제1 생성 처리를 개시하면, 제1 생성부(105a)는, 도 6a의 기초 문자 변환 테이블을 참조하는 것으로 훈련 집합에 포함되는 문자 변환쌍을 취득한 후에, 취득한 문자 변환쌍을 이용해, 도 9의 재기입 횟수 테이블을 생성한다(스텝 S51). 구체적으로는, 제1 생성부(105a)는, 훈련 집합으로부터 모든 문자 변환쌍을 취출한다. 다음으로, 제1 생성부(105a)는, 취출한 모든 문자 변환쌍에 대하여, 해당 문자 변환쌍을 구성하는 원 철자 문자열 sn의 선두에 특수 문자 「^」를 추가하고, 말미에 특수 문자 「$」를 추가한다. 그 후, 제1 생성부(105a)는, 특수 문자가 추가된 문자열 sn을 분할하는 것으로 원 단편α를 생성한다.
여기서, 원 철자 문자열 sn의 길이가 A일 경우(즉, 원 철자 문자열 sn이 A 문자의 문자열일 경우)에는, 원 철자 문자열 sn의 분할 방법 S는, 2(A-1)-1가지 존재한다. 제1 생성부(105a)는, 모든 가짓수의 분할 방법 S로 원 철자 문자열 sn을 분할함으로써, 모든 가짓수의 원 단편α를 생성한다. 또한, 제1 생성부(105a)는, 상기 원 철자 문자열 sn의 모든 가짓수의 분할 방법 S를 요소로 하는 집합을 Part(sn)라고 한다. 마찬가지로, 제1 생성부(105a)는, 목적 철자 문자열 tn의 모든 가짓수의 분할 방법 T를 특정한 후에, 특정된 모든 가짓수의 분할 방법 T를 요소로 하는 집합 Part(tn)를 생성한다. 그 후, 제1 생성부(105a)는, 모든 가짓수의 분할 방법 T로 목적 철자 문자열 tn을 분할함으로써 모든 가짓수의 문자 변환 단편 β를 취득한다.
그 후, 제1 생성부(105a)는, 원 단편α와 문자 변환 단편 β와의 모든 가짓수의 조합을 생성하고, 생성된 조합마다 상기 재기입 횟수 fn(α→β)을 산출한다. 다음으로, 제1 생성부(105a)는, 도 9의 재기입 횟수 테이블에, 산출된 재기입 횟수 fn(α→β)를 나타내는 정보를, 문자 변환쌍 번호 n을 나타내는 정보와, 원 단편α와 문자 변환 단편 β로 구성되는 단편쌍의 단편쌍 번호 j를 나타내는 정보에 대응지어서 저장한다.
도 10의 스텝 S51의 후에, 제1 생성부(105a)는, 도 9의 재기입 횟수 테이블에 기초하여, 도 8a의 기초 재기입 테이블을 생성한다(스텝 S52). 구체적으로는, 제1 생성부(105a)는, 산출된 재기입 횟수 fn(α→β)를, 이하의 수학식 1에 이용함으로써, 원 단편α가 문자 변환 단편 β로 바뀌어 쓰여지는 재기입 확률 P(α→β)를 산출한다.
Figure 112013027250352-pct00001
그 후, 제1 생성부(105a)는, 산출된 재기입 확률 P(α→β)를 나타내는 정보를, 원 단편α와 문자 변환 단편 β로 구성되는 단편쌍의 단편쌍 번호 j를 나타내는 정보에 대응지어, 도 8a의 기초 재기입 테이블에 저장한다.
도 10의 스텝 S52 후에, 제1 생성부(105a)는, 도 8a의 기초 재기입 테이블에 기초해서 도 6a의 기초 문자 변환 테이블을 재생성한 후에(스텝 S53), 제1 생성 처리의 실행을 종료한다. 구체적으로는, 우선, 제1 생성부(105a)는, 훈련 집합에 속하는 문자 변환쌍의 내에서, 미처리 문자 변환쌍에 주목한다. 다음으로, 제1 생성부(105a)는, 주목한 문자 변환쌍(이하, 주목 문자 변환쌍이라고 한다)을 구성하는 원 철자 문자열 sn 및 목적 철자 문자열 tn과, 산출된 재기입 확률 P(α→β)를 이하의 수학식 2에 이용함으로써, 주목 문자 변환쌍에 대해서 αβ법을 실행한다. 또한, αβ법의 실행 방법의 상세에 대하여는, 비특허 문헌 2에 기재되어 있기 때문에 설명을 생략한다. 또한, 본 명세서는, 비특허 문헌 2의 내용을 참조에 의해 취득한다.
Figure 112013027250352-pct00002
단, T는, 목적 철자 문자열 tn의 분할 방법을 나타내고, Part(tn)은, 전분할 방법 T를 요소로 하는 집합이다. 마찬가지로, S는, 원 철자 문자열 sn의 분할 방법을 나타내고, Part(sn)는, 전분할 방법 S를 요소로 하는 집합이다. 또한, |S|는, 원 철자 문자열 sn을 분할 방법 S로 분할했을 경우에 생성되는 원 단편α의 수를 나타낸다. 또한, αi는, 원 철자 문자열 sn을 분할 방법 S로 분할했을 경우에 생성되는 선두로부터 i번째의 원 단편을 나타내고, βi는, 목적 철자 문자열 tn을 분할 방법 T로 분할했을 경우에 생성되는 선두로부터 i번째의 문자 변환 단편을 나타낸다.
이 αβ법의 실행에 의해, 제1 생성부(105a)는, 주목 문자 변환쌍을 구성하는 원 철자 문자열 sn이 해당 목적 철자 문자열 tn으로 문자 변환되는 문자 변환 확률 Pαβ(sn|tn)을 산출한다. 다음으로, 제1 생성부(105a)는, 도 6a의 기초 문자 변환 테이블에, 산출된 문자 변환 확률 Pαβ(sn|tn)을 나타내는 정보를, 주목 문자 변환쌍의 문자 변환쌍 번호 n을 나타내는 정보에 대응지어서 저장한다. 그 후, 제1 생성부(105a)는, 미처리의 문자 변환쌍이 없어질때 까지 상기 처리를 반복한다.
도 7의 스텝 S33 후에, 도 5의 접수부(104)는, 단말 장치(200)로부터 송신된 정보로 나타나는 언어수 K를 접수한다(스텝 S34). 이 언어수 K는, 훈련 집합에 속하는 복수의 문자 변환쌍을 각각 구성하는 원 철자 문자열 sn을, 기원 언어에 따라서 몇개의 클래스로 잠재적으로(즉, 명시적이지 않음) 분류할지를 나타내는 값이다. 구체적으로는, 훈련 집합에 포함되는 복수의 원 철자 문자열 sn이, 영어, 불어, 스페인어, 독일어, 폴란드어 및 러시아어 중 어느 하나를 기원 언어로 하는 경우를 예로 들어서 설명한다. 이 경우에, 접수한 언어수 K가 값 「7」이면, 해당 복수의 원 철자 문자열 sn은, 각각 기원 언어에 따라서, 영어 클래스, 불어 클래스, 독일어 클래스, 폴란드어 클래스 및 러시아어 클래스라고 하는 7개의 클래스로 잠재적으로 분류될 경우가 많다.
이에 대하여, 접수한 언어수 K가 값 「3」이면, 예를 들면, 영어 및 독일어 클래스, 불어 및 스페인어 클래스, 및 폴란드어 및 러시아어 클래스 등 언어학 상의 어파로 잠재적으로 분류될 경우가 많다. 동일 어파에 속하는 기원 언어를 갖는 원 철자 문자열 sn은, 다른 기원 언어를 갖는 문자열 sn보다도 서로 유사한 표기 및 표기에 대한 음운을 이용하는 경우가 많기 때문이다.
또한, 불어 및 스페인어와 같이, 동일 클래스로 잠재적으로 분류되는 원 철자 문자열 sn의 기원 언어를 총칭해 잠재 언어라고 한다. 본 실시예에서는, 잠재 언어의 수 K는 「3」개라고 하여 설명했지만, 이에 한정되지는 않는다. 「3」개의 잠재 언어는, 언어 번호 「1」, 「2」 및 「3」으로 각각 식별된다. 이 언어 번호 「1」, 「2」 및 「3」으로 각각 식별되는 잠재 언어를 제1 언어, 제2 언어 및 제3 언어라고 칭한다. 본 실시예에서, 언어 번호 z는 잠재 변수이며, 언어 번호 z로 식별되는 잠재 언어는, 구체적으로 어떤 언어인지 특정될 일은 없다.
도 7의 스텝 S34 후에, 도 5의 제2 생성부(105b)는, 도 11에 도시한 바와 같은 제2 생성 처리를 실행한다.
도 11의 제2 생성 처리를 개시하면, 제2 생성부(105b)는, 도 8a의 기초 재기입 테이블을 읽어들인다(스텝 S61). 그 후, 제2 생성부(105b)는, 읽어들인 기초 재기입 테이블을 K개를 카피함으로써, 제1 재기입 테이블로부터 제 K 재기입 테이블까지의 K개의 재기입 테이블을 생성한다(스텝 S62). 구체적으로는, 제2 생성부(105b)는, 도 8a의 기초 재기입 테이블에 저장된 단편쌍을 식별하는 번호 j를 나타내는 정보와, 해당 단편쌍을 구성하는 원 단편α를 나타내는 정보와, 해당 단편쌍을 구성하는 문자 변환 단편 β를 나타내는 정보와, 재기입 확률 P(α→β|z=1)을 나타내는 정보를 대응지어서 저장된 제1 재기입 테이블을 생성한다. 이 재기입 확률 P(α→β|z=1)는, 해당 원 단편α를 포함하는 원 철자 문자열 sn의 기원 언어가 제1 언어인 조건 하에서 해당 원 단편 α가 문자 변환 단편 β로 바뀌어 쓰여지는 확률을 말한다. 마찬가지로, 제2 생성부(105b)는, 재기입 확률 P(α→β|z=2)를 나타내는 정보를 저장된 제2 재기입 테이블과, 재기입 확률 P(α→β|z=3)를 나타내는 정보를 저장된 제3 재기입 테이블을 생성한다.
스텝 S62 후에, 제2 생성부(105b)는, 도 6a의 기초 문자 변환 테이블을 읽어들인다(스텝 S63). 그 후, 제2 생성부(105b)는, 읽어들인 기초 문자 변환 테이블을 K개 카피함으로써, 제1 문자 변환 테이블로부터 제 K 문자 변환 테이블까지의 K개의 문자 변환 테이블을 생성한 후에(스텝 S64), 제2 생성 처리의 실행을 종료한다. 구체적으로는, 제2 생성부(105b)는, 기초 문자 변환 테이블에 저장된 문자 변환쌍을 식별하는 번호 n을 나타내는 정보와, 해당 문자 변환쌍을 구성하는 원 철자 문자열 sn을 나타내는 정보와, 해당 문자 변환쌍을 구성하는 목적 철자 문자열 tn을 나타내는 정보와, 문자 변환 확률 P(tn|sn, z=1)를 나타내는 정보를 대응지어서 저장된, 도 6b에 도시하는 바와 같은 제1 문자 변환 테이블을 생성한다. 이 문자 변환 확률 P(tn|sn, z=1)는, 해당 원 철자 문자열 sn의 기원 언어가 제1 언어인 조건 하에서 해당 원 철자 문자열 sn의 문자 변환이 목적 철자 문자열 tn일 확률을 말한다. 마찬가지로, 제2 생성부(105b)는, 도 6c에 도시하는 바와 같은 문자 변환 확률 P(tn|sn, z=2)을 나타내는 정보를 저장된 제2 문자 변환 테이블과, 도 6d에 도시하는 바와 같은 문자 변환 확률 P(tn|sn, z=3)을 나타내는 정보를 저장된 제3 문자 변환 테이블을 생성한다.
또한, 제2 생성부(105b)는, 문자 변환 확률 P(tn|sn, z=1), 문자 변환 확률 P(tn|sn, z=2) 및 문자 변환 확률 P(tn|sn, z=3)을 각각 소정량 이상 서로 다른 값으로 변경한다. 이들 문자 변환 확률이 각각 소정량 이상 서로 다르지 않을 경우에는, 후술하는 EM(Expectation Maximization) 알고리즘의 E 스텝 및 M 스텝이 반복해 실행되지 않기 때문이다. 본 실시예에서는, 제2 생성부(105b)는, 같은 문자 변환쌍 번호 n을 나타내는 정보에 대응짓는 문자 변환 확률 P(tn|sn, z=1), 문자 변환 확률 P(tn|sn, z=2) 및 문자 변환 확률 P(tn|sn, z=3)을, 해당 문자 변환쌍 번호 n을 나타내는 정보에 대응지어지는 문자 변환 확률 Pαβ(tn|sn)에 대하여, 각각 랜덤 값을 가산, 감산, 승산 및 제산 등 한 값으로 설정한다고 해서 설명한다. 그러나, 이에 한정되는 것이 아니고, 상기의 문자 변환 확률 P(tn|sn, z=1)로부터 문자 변환 확률 P(tn|sn, z=3)이, K=3개의 언어마다 각각 문자 변환 확률 Pαβ(tn|sn)과 소정량씩 다른 값으로 설정되어도 된다.
도 7의 스텝 S35 후에, 도 5의 초기화부(106)는, 후술하는 EM 알고리즘의 실행에 이용되는 파라미터를 초기화하는 초기화 처리를 실행한다(스텝 S36). 구체적으로는, 초기화부(106)는, 훈련 집합에 속하는 문자 변환쌍을 구성하는 N개의 원 철자 문자열 sn 내에서, 언어 번호 k로 식별되는 잠재 언어를 기원 언어로 하는 원 철자 문자열 sn의 비율을 나타내는 가중치 파라미터 πk를 소정의 값 「1/K」로 각각 초기화한다.
또한, 소정의 값을 나타내는 정보는, 정보 기억부(103)에 기억되어 있다. 또한, 해당 정보로 나타나는 가중치 파라미터 πk의 초기값은 「1/K」로 한정되는 것이 아니고, 당업자는, 실험에 의해 적절한 값을 정할 수 있다. 또한, 가중치 파라미터 π1를, 도 6b에 도시하는 제1 문자 변환 테이블의 가중치 파라미터라고 하고, 마찬가지로, 가중치 파라미터 π2를, 도 6c에 도시하는 제2 문자 변환 테이블의 가중치 파라미터라고 하고, 가중치 파라미터 π3을, 도 6d에 도시하는 제3 문자 변환 테이블의 가중치 파라미터라고 한다.
스텝 S36 후에, 도 5의 기대값 산출부(107a)는, EM 알고리즘의 E 스텝을 실행한다(스텝 S37). 구체적으로는, E 스텝은, 제1E 스텝에서 제3E 스텝으로 구성된다. 기대값 산출부(107a)는, E 스텝을 첫회에 실행하는 경우에는, E 스텝을 구성하는 제1E 스텝에서 제3E 스텝 내에서, 제2E 스텝 및 제3E 스텝만을 실행한다. 이에 대하여, 기대값 산출부(107a)는, E 스텝을 차회 이후에 실행하는 경우에는, 제1E 스텝부터 순서대로 제3E 스텝까지 실행한다. 왜냐하면, 제1E 스텝은, 재기입 확률 P(α→β|z=1)에서 P(α→β|z=3)을 이용해서 αβ법을 실행함으로써, 문자 변환 확률 P(tn|sn, z=1)에서 P(tn|sn, z=3)를 산출하는 처리이다. 이 때문에, 첫회의 제1E 스텝에 상당하는 처리는, 도 10의 스텝 S53 및 도 11의 스텝 S64의 처리이며, 이미 실행되어 있기 때문이다.
기대값 산출부(107a)는, 제1E 스텝을 개시하면, 언어 번호 「1」의 제1 언어에 주목하고, 해당 제1 언어를 주목 언어라고 한다. 다음으로, 기대값 산출부(107a)는, 주목 언어에 대응한 도 8b의 제1 재기입 테이블로부터 재기입 확률 P(α→β|z=1)를 참조한다. 그 후, 기대값 산출부(107a)는, 도 6b의 제1 문자 변환 테이블에 저장된 정보로 나타나는 미처리의 문자 변환쌍 1개에 주목한다. 그 후, 기대값 산출부(107a)는, 주목한 문자 변환쌍(이하, 주목 문자 변환쌍이라고 한다)을 구성하는 원 철자 문자열 sn과 목적 철자 문자열 tn과, 참조한 재기입 확률 P(α→β|z=1)를 이하의 수학식 3에 이용함으로써 αβ법을 실행한다.
Figure 112013027250352-pct00003
단, S 및 T, Part(sn) 및 Part(tn), |S|, αi, 및 βi는, 각각 상기 수학식 2에서 사용 한 것과 동일하므로 설명을 생략한다.
상기 수학식 3을 이용해서 αβ법을 실행함으로써, 주목 문자 변환쌍의 문자 변환 확률 P(tn|sn, z=1)를 산출하고, 도 6b의 제1 문자 변환 테이블을 산출된 값을 나타내는 정보로 갱신한다. 그 후, 기대값 산출부(107a)는, 미처리의 문자 변환쌍이 없어질 때까지 상기 처리를 반복한 후에, 언어 번호 「2」로 식별되는 제2 언어를 주목 언어로서 상기 처리를 반복한다. 그 후, 기대값 산출부(107a)는, 언어 번호 「3」으로 식별되는 제3 언어를 주목 언어로서 상기 처리를 반복한 후에, 제1E 스텝을 종료한다.
제2E 스텝에서는, 기대값 산출부(107a)는, 확률 변수 znk의 기대값 γnk(즉, E[znk])를, 모든 문자 변환쌍 번호 n 및 모든 언어 번호 k에 대하여 이하의 수학식 4를 이용해서 산출한다. 이 확률 변수 znk는, 문자 변환쌍 번호 n으로 식별되는 문자 변환쌍의 원 철자 문자열 sn이 언어 번호 k로 식별되는 잠재 언어를 기원으로 하고 있을 경우에 값 「1」이 되고, 그렇지 않을 경우에 값 「0」이 되는 변수이다. 또한, 기대값 γnk는, 문자 변환 확률 P(tn|sn, z=1)를, 가중치 파라미터 πk로 가중치 부여한 가중치 문자 변환 확률이며, 원 철자 문자열 sn의 기원 언어가 언어 번호 k로 식별되는 잠재 언어인 확률(이하, 기원 확률이라고 한다)이기도 하다.
Figure 112013027250352-pct00004
제3E 스텝에서는, 기대값 산출부(107a)는, 우도 함수 L의 기대값 Q를 기대값 γnk를 이용해서 산출한다. 또한, 우도 함수 L은, 우도를 산출하는 함수이며, 이하의 수학식 5로 나타난다. 이 우도 함수 L로 산출되는 우도는, 훈련 집합이 얻어진(즉, 관측된) 경우에, 해당 훈련 집합의 요소인 복수의 문자 변환쌍을 언어 번호 「1」에서 「3」의 3개의 잠재 언어에 기초해서 잠재적으로 클래스로 나눈 문자 변환 모델에 있어서의, 도 6b 내지 도 6d에 각각 나타난 제1 문자 변환 테이블 내지 제3 문자 변환 테이블의 가능성을 나타낸다.
Figure 112013027250352-pct00005
도 7의 스텝 S37 후에, 도 5의 판정부(107b)는, 금회 처음으로 우도 함수 L의 기대값 Q가 산출되었는지(즉, E 스텝이 처음으로 실행되었는지) 아닌지를 판별한다(스텝 S38). 이때, 갱신부(107)는, 금회 처음으로 우도 함수 L의 기대값 Q가 산출된 것은 아니라고 판별하면(스텝 S38; No), 스텝 S37에서 전회에 산출된 우도 함수 L의 기대값 Q로부터, 금회에 산출된 우도 함수 L의 기대값 Q로의 변화량의 절대값을 산출한다. 다음으로, 갱신부(107)는, 산출된 변화량의 절대값이 소정값 Z 이상인지의 여부를 판별한다(스텝 S39). 또한, 소정값 Z를 나타내는 정보는, 도 5의 정보 기억부(103)에 기억되어 있고, 소정값 Z의 적절한 값은, 당업자가 실험에 의해 정할 수 있다. 또한, 여기서는 변화량의 절대값으로 판별을 행하고 있지만, 절대값이 아니고 비율에 의해 판별을 행해도 된다. 예를 들면, 전회에 산출된 우도 함수 L의 기대값 Q에 대한 금회에 산출된 우도 함수 L의 기대값 Q의 비율이 소정값 Z 이상인지의 여부를 판별하거나, 전회에 산출된 기대값 γnk에 대한 금회에 산출된 기대값 γnk의 비율이 소정값 Z 이상인지의 여부를 판별하거나 할 수도 있다.
스텝 S38에 있어서, 갱신부(107)가, 금회 처음으로 우도 함수 L의 기대값 Q가 산출되었다고 판별했을 경우(스텝 S38; Yes), 또는 기대값 Q의 변화량의 절대값이 소정값 Z 이상이라고 판별했을 경우에(스텝 S39; Yes), 도 5의 최대화부(107c)는, 우도 함수 L의 기대값 Q를 최대화하는 M 스텝을 실행한다(스텝 S40).
구체적으로는, 최대화부(107c)는, 도 9의 재기입 횟수 테이블에 저장된 정보로 나타나는 재기입 횟수 fn(α→β)과, 도 7의 스텝 S37(즉, E 스텝)로 산출된 기대값 γnk를 이하의 수학식 6 및 수학식 7에 이용한다. 이에 의해, 최대화부(107c)는, 우도 함수 L의 기대값 Q를 최대화하는 가중치 파라미터 πk*과, 문자 변환 확률 P(tn|sn, z=k)*를, 모든 문자 변환쌍 번호n 및 언어 번호k에 대해서 각각 산출한다.
Figure 112013027250352-pct00006
Figure 112013027250352-pct00007
도 7의 스텝 S40 후에, 갱신부(107)는, 파라미터 갱신 처리를 실행한다(스텝 S41). 이 파라미터 갱신 처리에서는, 갱신부(107)는, 스텝 S37에서 우도 함수 L의 기대값 Q를 산출하기 위해서 이용되는 가중치 파라미터 πk를, 스텝 S40에서 산출된 최적의 가중치 파라미터 πk*(즉, 우도 함수 L의 기대값 Q를 최대로 하는 최적해)로 갱신한다. 또한, 갱신부(107)는, 도 6b 내지 도 6d의 제1 문자 변환 테이블 내지 제3 문자 변환 테이블에 각각 저장된 문자 변환 확률 P(tn|sn, z=1)에서 문자 변환 확률 P(tn|sn, z=3)를 나타내는 정보를, 각각 최적인 문자 변환 확률 P(tn|sn, z=1)*에서 P(tn|sn, z=3)*를 나타내는 정보로 갱신한다. 그 후, 스텝 S37로부터 상기 처리가 반복된다.
판정부(107b)가, 전회 산출된 우도 함수 L의 기대값 Q로부터, 금회 산출된 우도 함수 L의 기대값 Q로의 변화량의 절대값이 소정값 Z 미만이라고 판별했을 경우에(스텝 S39; No), 문자 변환 확률 출력 처리가 실행된다(스텝 S42). 이 문자 변환 확률 출력 처리에서는, 도 5의 확률 출력부(108)는, 입력쌍을 식별하는 번호 N을 나타내는 정보에 대응지어진 문자 변환 확률 P(tN|sN, z=1)에서 P(tN|sN, z=3)를 나타내는 정보를, 도 6b의 제1 문자 변환 테이블 내지 도 6d의 제3 문자 변환 테이블에서 참조한다. 그 후, 확률 출력부(108)는, 참조한 문자 변환 확률 P(tN|sN, z=1)에서 P(tN|sN, z=3) 내에서 최대 문자 변환 확률을 나타내는 정보를 단말 장치(200)로 출력(즉, 송신)한다. 문자 변환 확률 출력 처리를 실행한 후에, 확률 출력부(108)는, 문자 변환 처리의 실행을 종료한다.
다음으로, EM 알고리즘의 실행에 수반하는 재기입 확률 P(α→β|z=1), 문자 변환 확률 P(tn|sn, z=1) 및 가중치 문자 변환 확률(즉, 확률 변수 znk의 기대값 γnk이며, 기원 확률이다) γnk의 변화에 대해서 설명한다.
도 11의 스텝 S62에 있어서, 도 8b의 제1 재기입 테이블에 저장된 단편쌍 번호 「5」로 식별되는 단편쌍을 구성하는 원 단편 「get$」이 문자 변환 단편 「제$」로 바뀌어 쓰여지는 재기입 확률 P(α→β|z=1)이, 다른 재기입 확률 P(α→β|z=2) 및 P(α→β|z=3) 보다도 높은 값으로 설정된다고 한다. 이 경우, 원 단편 「get$」을 포함하는 원 철자 문자열 s2 「xxaget」가 문자 변환 단편 「제」를 포함하는 목적 철자 문자열 t2 「△아제」로 문자 변환되는 문자 변환 확률 P(t2|s2, z=1)는, 상기 수학식 3을 이용해서 산출된다. 이 때문에, 도 12a에 도시한 바와 같이, 문자 변환 확률 P(t2|s2, z=1)는, 다른 문자 변환 확률 P(t2|s2, z=2) 및 P(t2|s2, z=3) 보다도 높아진다.
문자 변환 확률 P(t2|s2, z=1)가 다른 문자 변환 확률 P(t2|s2, z=2) 및 P(t2|s2, z=3) 보다도 높아지면, 상기 수학식 4로 산출되는 가중치 문자 변환 확률 γ21이, 도 12b에 도시한 바와 같이, 다른 가중치 문자 변환 확률 γ22 및 γ23 보다도 높아진다.
가중치 문자 변환 확률 γ21이 높아지면, 상기 수학식 6으로 산출되는 최적의 가중치 파라미터 π1*이, 다른 가중치 파라미터 π2* 및 π3* 보다도 커진다. 이 때문에, 상기 수학식 4로 산출되는 가중치 문자 변환 확률 γ21이 더 높아진다.
가중치 문자 변환 확률 γ21이 더 높아지면, 도 12c에 도시한 바와 같이, 상기 수학식 7로 산출되는 재기입 확률 P(α→β|z=1)가, 다른 재기입 확률 P(α→β|z=2) 및 P(α→β|z=3) 보다도 높은 값으로 갱신된다. 이 때문에, 문자 변환 확률 P(t2|s2, z=1)가 다른 문자 변환 확률 P(t2|s2, z=2) 및 P(t2|s2, z=3) 보다도 더 높아진다.
이상, 원 철자 문자열 s2의 말미를 구성하는 원 단편 「get$」를 문자 변환 단편 「제」로 바꿔쓰는 재기입 확률 P(α→β|z=1)가 높은, 예를 들면, 불어와 같은 잠재 언어에 대응한 제1 문자 변환 테이블에 대해서 설명을 했다. 이러한 제1 문자 변환 테이블에서는, 상기한 바와 같이, 잠재 언어가 어떤 언어인지 특정되지 않음에도 상관없이, 예를 들면, 불어와 같은 잠재 언어를 기원 언어로 하는 원 철자 문자열 s2「xxaget」를 해당 기원 언어의 음운에 따라서 목적 철자 문자열 t2「△아제」로 문자 변환되는 문자 변환 확률 P(t2|s2, z=1)가 높은 값이 된다.
이들 구성에 따르면, 재기입 확률 P(α→β|z=k)를 이용해서 문자 변환 확률 P(tn|sn, z=k)를 산출하고나서, 해당 문자 변환 확률 P(tn|sn, z=k)를 이용해서 산출되는 우도 함수 L의 기대값 Q를 최대화하도록 재기입 확률 P(α→β|z=k)가 갱신된다. 그 후, 문자 변환 확률 P(tn|sn, z=k)의 산출과 재기입 확률 P(α→β|z=k)의 갱신이 반복된다. 이 때문에, 재기입 확률 P(α→β|z=k)를 나타내는 정보가 저장된 재기입 테이블에 대응한 잠재 언어 및 문자 변환 확률 P(tn|sn, z=k)을 나타내는 정보가 저장된 문자 변환 테이블에 대응한 잠재 언어 어떤 것도 불분명해도(즉, 문자 변환의 대상이 되는 원 철자 문자열 sn이 어떤 언어를 기원으로 하는지 불분명할 경우라도), 문자 변환된 목적 철자 문자열 tn이 해당 대상을 문자 변환한 것인지를 문자 변환 확률 P(tn|sn, z=k)에 기초해서 종래보다도 정확하게 특정할 수 있다.
또한, 이들 구성에 따르면, 문자 변환 확률 P(tn|sn, z=k)와, 가중치 파라미터 πk를 이용해서 기원 확률(즉, 확률 변수 znk의 기대값이며, 기원 확률이다) γnk가 산출된다. 그 후에, 문자 변환 확률 P(tn|sn, z=k) 뿐만 아니라 기원 확률 γnk를 다시 이용해 산출되는 우도 함수 L의 기대값을 최대화하도록, 문자 변환 확률 P(tn|sn, z=k) 뿐만아니라 가중치 파라미터 πk도 갱신된다. 이 때문에, 우도 함수 L의 기대값이 종래보다 더 최대화된다. 따라서, 문자 변환 대상이 되는 원 철자 문자열 sn이 어떤 언어를 기원으로 하는지 불분명할 경우라도, 문자 변환된 목적 철자 문자열 tn이 해당 대상을 문자 변환한 것인지를 고 정밀도로 특정할 수 있다.
이들 구성에 따르면, 1개의 기초 재기입 테이블로부터 αβ법을 실행함으로써 1개의 기초 문자 변환 테이블에 포함되는 문자 변환 확률 Pαβ(sn|tn)이 생성된다. 다음으로, 생성된 문자 변환 확률 Pαβ(sn|tn)를, K개의 언어마다 변화시킴으로써 K개의 언어에 대응한 K개의 문자 변환표가 생성된다. 그 후, 생성된 K개의 문자 변환 테이블의 각각에 포함되는 문자 변환 확률 P(tn|sn, z=k)가 EM 알고리즘에 의해 갱신된다. 이 때문에, K개의 문자 변환 테이블의 생성에 필요한 계산량을 삭감하면서, 우도 함수 L의 기대값을 종래보다 확실하게 최대화할 수 있다.
또한, 이들 구성에 따르면, 우도 함수 L의 기대값 Q의 변화량이 소정 크기 미만이 될 때까지 문자 변환 확률 P(tn|sn, z=k) 및 가중치 파라미터 πk의 갱신을 반복하므로, 우도 함수 L의 기대값 Q를 종래보다 확실하게 최대화할 수 있다.
또한, 이들 구성에 따르면, 제1 문자열과 제2 문자열을 접수하면, 접수된 제2 문자열이, 제1 문자열을 문자 변환한 것인 확률을 출력한다. 이 때문에, 제1 문자열이 어떤 언어를 기원으로 하는지 불분명할 경우라도, 제1 문자열과 제2 문자열을 접수하면, 제2 문자열이 제1 문자열을 문자 변환한 것인 확률을 종래보다도 정확하게 산출해서 출력할 수 있다. 따라서, 문자 변환 처리 장치(100)를 사용하는 유저는, 제1 문자열의 기원 언어를 모르는 경우에도, 제1 문자열과, 제1 문자열의 문자 변환이라고 생각되는 제2 문자열을 문자 변환 처리 장치(100)에 입력만 하면, 제1 문자열과 제2 문자열의 문자 변환 확률을 알 수 있다. 이 때문에, 유저는, 문자 변환 확률에 기초하여, 제2 문자열이 제1 문자열의 바른 문자 변환인지의 여부를 용이 또한 정확하게 판단할 수 있다.
또한, 이들 구성에 따르면, 훈련 집합에 포함되어 있지 않은 제1 문자열을 접수하고, 접수된 제1 문자열과 제2 문자열의 문자 변환 확률을 산출한다. 이 때문에, 미리 훈련 집합에 포함되어 있지 않은 제1 문자열과 제2 문자열의 쌍(즉, 입력쌍)이어도, 제2 문자열이 제1 문자열을 문자 변환한 것인 확률을 종래보다도 정확하게 산출해서 출력할 수 있다.
또한, 본 실시예에서, 도 7의 스텝 S34에서 단말 장치(200)로부터 송신된 정보로 나타나는 언어수 K를 접수한다고 했지만, 문자 변환 처리 장치(100)에 미리 K의 값이 설정되어 있어도 된다. 또한, 설정하는 언어수 K의 값은 1개가 아니라, 복수이어도 된다. 예를 들면, 값 「3」, 「4」, 「5」 3개가 K로서 설정되어 있으면, 각각에서 구해진 문자 변환 확률 중, 가장 높은 문자 변환 확률에 기초해서 제2 문자열이 제1 문자열의 바른 문자 변환인지의 여부를 유저는 판단할 수 있다.
<변형예 1>
다음으로, 본 실시예의 변형예 1에 대해서 설명한다.
본 실시예에서는, 도 5의 생성부(105)가, 도 10의 스텝 S53에 있어서, 문자 변환 확률 Pαβ(sn|tn)를 나타내는 정보가 저장된 도 6a의 기초 문자 변환 테이블을 생성하고나서, 도 11의 스텝 S64에 있어서, 해당 기초 문자 변환 테이블에 기초해서 제1 문자 변환 테이블 내지 제3 문자 변환 테이블을 생성한다고 하여 설명했다. 또한, 본 실시예에서는, 도 5의 갱신부(107)가, 도 7의 스텝 S37(즉, E 스텝)의 첫회 실행 시에 있어서, 제1E 스텝을 실행하지 않는다고 하여 설명했다. 또한, 제1E 스텝은, 제1 재기입 테이블 내지 제3 재기입 테이블을 이용한 αβ법을 실행함으로써, 문자 변환 확률 P(tn|sn, z=k)를 산출하는 스텝이다.
그러나, 이에 한정되는 것이 아니고, 변형예 1에서는, 도 5의 생성부(105)가, 도 10의 스텝 S53에 있어서, 문자 변환 확률 Pαβ(sn|tn)를 나타내는 정보가 저장되어 있지 않은 기초 문자 변환 테이블을 생성한다. 다음으로, 생성부(105)가, 도 11의 스텝 S62에 있어서, 기초 재기입 테이블에 기초해서 제1 기초 재기입 테이블 내지 제3 기초 문자 변환 테이블을 생성한다. 그 후에, 도 5의 갱신부(107)가, 도 7의 스텝 S37의 첫회 실행 시에 있어서, 제1E 스텝부터 순서대로 제3E 스텝까지 실행한다. 이 변형예 1에 있어서, 생성부(105)는, 같은 단편쌍 번호 j를 나타내는 정보에 대응짓는 재기입 확률 P(α→β|z=1)에서 P(α→β|z=3)를, 해당 단편쌍 번호 j를 나타내는 정보에 대응지어지는 재기입 확률 P(α→β)에 대하여, 각각 랜덤 값을 가산, 감산, 승산 및 제산 등 한 값으로 설정해도 좋고, K개의 언어마다 각각 소정량씩 다른 값으로 설정해도 된다.
이들 구성에 따르면, 1개의 기초 재기입 테이블에 포함되는 재기입 확률 P(α→β)를 변화시키는 것에 의해, K개의 언어에 대응한 K개의 재기입 테이블을 생성해도, 문자 변환 확률 P(tn|sn, z=k)의 산출과, 재기입 확률 P(α→β|z=k)의 갱신을 반복한다. 이 때문에, K개의 재기입 테이블의 생성에 필요한 계산량을 삭감하면서, 우도 함수 L의 기대값 Q를 종래보다 확실하게 최대화할 수 있다.
< 변형예 2>
다음으로, 본 실시예의 변형예 2에 대해서 설명한다.
변형예 2에 있어서, 도 1의 단말 장치(200)는, 도 2a의 입력 화면 FI1이 아니라, 도 13a에 도시하는 바와 같은 입력 화면 FI2를 표시함으로써, 임의의 기원 언어에 있어서의 철자로 이루어지는 제1 문자열을 입력하도록 촉구하는 표시를 행한다. 다음으로, 단말 장치(200)는, 유저의 조작에 따른 각종 신호를 문자 변환 처리 시스템(1)에 입력하고, 입력된 신호에 기초해서 제1 문자열을 생성하고, 생성한 제1 문자열을 나타내는 정보를 문자 변환 처리 장치(100)에 송신한다. 그 후, 단말 장치(200)는, 문자 변환 처리 장치(100)로부터 회신된 정보를 수신한다. 다음으로, 단말 장치(200)는, 도 2b의 결과 표시 화면 FO1가 아니라, 도 13b에 도시하는 바와 같은 결과 표시 화면 FO2를 표시한다. 그 후, 단말 장치(200)는, 수신된 정보에 기초하여, 제1 문자열과, 해당 제1 문자열이 문자 변환 될 수 있는 상기 소정 목적 언어에 있어서의 후보 문자열과, 해당 제1 문자열이 해당 후보 문자열로 문자 변환되는 확률을, 결과 표시 화면 FO2 상에, 해당 확률이 높은 순으로 일람 표시한다. 또한, 단말 장치(200)는, 후보 문자열을 해당 확률이 낮은 순으로 일람 표시해도 된다. 또한, 단말 장치(200)는, 해당 확률이 가장 높은 제1 문자열과 후보 문자열과 해당 확률을 1개만 표시해도 된다. 또한, 단말 장치(200)는, 가장 높은 확률이 소정 임계값을 초과하고 있는 경우에 한해, 해당 최고 확률과 1 문자열과 후보 문자열과 해당 확률을 1개만 표시해도 된다.
변형예 2의 문자 변환 처리 장치(100)의 CPU(100a)는, 도 3의 하드웨어를 이용해, 도 7이 아닌 도 14의 문자 변환 처리를 실행함으로써, 도 5가 아닌 도 15에 도시한 바와 같은 각 기능부(101) 내지 기능부(107)와, 후보 출력부(109)로서 기능한다.
도 14의 문자 변환 처리를 개시하면, 도 15의 접수부(104)는, 단말 장치(200)로부터 송신된 정보로 나타나는 제1 문자열을 접수한다(스텝 S71). 다음으로, 생성부(105)는, 도 10의 제1 생성 처리를 실행한다(스텝 S72). 그 후, 생성부(105)는, 접수한 제1 문자열의 후보 문자열을 복수 생성한다(스텝 S73).
구체적으로는, 생성부(105)는, 제1 문자열에 대하여 임의의 분할 방법 S로 분할을 행하고, 모든 가짓수의 단편 문자열 또는 단편 문자(이하, 단편이라고 한다)를 취득한다. 다음으로, 생성부(105)는, 도 8a의 기초 재기입 테이블에 저장된 정보로 나타나는 단편쌍을 구성하는 원 단편 α 내에서, 취득된 단편과 같은 모든 조합(즉, 전배열)을 생성한다. 다음으로, 생성부(105)는, 생성한 모든 조합의 내에서, 제1 문자열이 되는 것을 특정한다. 그 후, 생성부(105)는, 도 8a의 기초 재기입 테이블로부터, 특정된 조합을 구성하는 원 단편α로 구성되는 단편쌍을 나타내는 정보를 모두 취득한다. 다음으로, 생성부(105)는, 취득한 정보로 나타나는 단편쌍을 구성하는 문자 변환 단편 β를, 해당 문자 변환 단편 β의 쌍이 되는 원 단편 α의 조합순(즉, 배열순)에 따라서 조합한다. 이렇게 하여, 생성부(105)는, 제1 문자열의 문자 변환로서 생각되는 모든 후보 문자열을 생성한다.
도 14의 스텝 S73 후에, 생성부(105)는, 생성된 복수의 후보 문자열마다, 스텝 S71로 접수된 제1 문자열과, 제1 문자열의 문자 변환으로 생각되는 해당 후보 문자열의 쌍(이하, 후보쌍이라고 한다)을 생성한다(스텝 S74). 그 후, 생성부(105)는, 후보쌍을 문자 변환쌍으로 간주해 훈련 집합에 추가하고, 훈련 집합에 포함되는 문자 변환쌍 수 N의 값을, 추가한 후보쌍의 수만큼 증가시킨다. 다음으로, 생성부(105)는, 해당 후보쌍을 나타내는 정보를, 해당 후보쌍을 식별하는 번호 n을 나타내는 정보와 대응짓고, 도 6a의 기초 문자 변환 테이블에 추가 저장한다(스텝 S75).
그 후, 도 7의 스텝 S34 내지 스텝 S41의 처리와 동일한 처리인, 도 14의 스텝 S76 내지 스텝 S83의 처리가 실행된다.
상기 처리 실행 중에, 스텝 S81에 있어서, 판정부(107b)가, 전회 산출된 우도 함수 L의 기대값 Q로부터, 금회 산출된 우도 함수 L의 기대값 Q로의 변화량의 절대값이 소정값 Z 미만이라고 판별했을 경우에(스텝 S81; No), 스텝 S84의 처리가 실행되고나서 문자 변환 처리의 실행이 종료한다. 스텝 S84에 있어서, 도 15의 후보 출력부(109)는, 각각의 후보쌍을 식별하는 번호 n을 나타내는 정보에 대응지어진 문자 변환 확률 P(tN|sN, z=1) 내지 P(tN|sN, z=3)를 나타내는 정보를, 도 6b의 제1 문자 변환 테이블 내지 도 6d의 제3 문자 변환 테이블로부터 참조한다. 그 후, 후보 출력부(109)는, 각각의 후보쌍을 나타내는 정보와, 참조된 문자 변환 확률 P(tN|sN, z=1)에서 P(tN|sN, z=3) 내에서 최대 문자 변환 확률을 나타내는 정보를 대응짓는 후보 리스트 정보를 생성한다. 그 후, 후보 출력부(109)는, 생성된 후보 리스트 정보로 나타나는 후보 문자열 리스트(이하, 후보 리스트라고 한다)를, 상기 최대 문자 변환 확률에 기초해 오름차순 또는 내림차순으로 소트한다. 그 후, 후보 출력부(109)는, 소트 된 리스트를 리스트 선두부터 순서대로 단말 장치(200)에 출력(즉, 송신) 한 후에, 스텝 S84의 처리를 종료한다.
이들 구성에 따르면, 제1 문자열을 접수하면, 제1 문자열의 문자 변환으로 생각되는 복수의 후보 문자열을, 해당 후보 문자열이 제1 문자열의 문자 변환인 문자 변환 확률에 기초해 출력한다. 이 때문에, 제1 문자열이 어떤 언어를 기원으로 하는지 불분명할 경우라도, 제1 문자열을 접수하면, 복수의 후보 문자열을 문자 변환 확률이 높거나 또는 낮은 순으로 출력할 수 있다. 따라서, 문자 변환 처리 장치(100)를 사용하는 유저는, 제1 문자열의 기원 언어를 모르는 경우에도, 제1 문자열을 문자 변환 처리 장치(100)에 입력만 하면, 제1 문자열의 문자 변환으로 생각되는 복수의 후보 문자열을 취득할 수 있다.
또한, 이들 구성에 따르면, 훈련 집합에 포함되어 있지 않은 제1 문자열을 접수하고, 접수된 제1 문자열의 후보 문자열을 생성하고, 생성된 후보 문자열과의 문자 변환 확률을 산출한다. 이 때문에, 미리 훈련 집합에 포함되어 있지 않은 제1 문자열이어도, 제1 문자열을 접수하면, 복수의 후보 문자열을 문자 변환 확률이 높거나 또는 낮은 순으로 출력할 수 있다.
<변형예 3>
다음으로, 본 실시예의 변형예 3에 대해서 설명한다.
변형예 3의 문자 변환 처리 시스템(1)은, 도 1의 외국어 DB 서버(302)를 갖지 않고, 도 16에 도시한 바와 같이 검색 엔진(400)을 갖는다.
검색 엔진(400)은, 검색 키워드를 나타내는 정보와, 해당 검색 키워드를 포함하는 내용이 기재된 Web(World Wide Web) 페이지의 URL을 나타내는 정보와, 해당 Web 페이지에 기재된 내용 내에서, 해당 키워드를 포함하는 부분인 스니펫(snippet)을 나타내는 정보를 대응지어서 기억하고 있다. 검색 엔진(400)은, 문자 변환 처리 장치(100)로부터 검색 키워드를 나타내는 정보와, 검색을 요구하는 리퀘스트를 수신하면, 수신한 검색 키워드를 나타내는 정보에 대응지어서 기억하는 스니펫을 나타내는 정보를 복수 검색한다. 그 후, 검색 엔진(400)은, 도 17에 도시한 바와 같은 스니펫 SP1 및 SP2를 포함하는 검색 결과 화면 FS를 나타내는 정보를 문자 변환 처리 장치(100)에 회신한다.
변형예 3의 문자 변환 처리 장치(100)는, 도 4의 훈련 집합 생성 처리의 실행에 있어서, 일본어의 온라인 백과 사전의 해설 항목으로부터 취득한 문자열이, 고유 명사라고 판별하면(스텝 S05; Yes), 스텝 S06을 실행하지 않고, 도 18의 스텝 S91을 실행한다. 스텝 S91에서는, 문자 변환 처리 장치(100)는, 도 16의 검색 엔진(400)에 대하여, 해당 일본어의 문자열을 검색 키워드로서, 해당 키워드와 검색 리퀘스트를 출력한다. 다음으로, 도 5에 나타낸 문자 변환 처리 장치(100)의 정보 취득부(102)는, 검색 엔진(400)로부터, 검색 키워드에 기초해서 검색된 스니펫을 나타내는 정보를 복수 취득한다(스텝 S92).
그 후, 도 5에 나타낸 문자 변환 처리 장치(100)의 훈련 집합 생성부(101)는, 스니펫에 기재된 검색 키워드(즉, 일본어의 해설 항목에 기재된 문자열)보다도 소정수만큼 앞 또는 뒤의 단어를 취득한다(스텝 S93). 그 후, 훈련 집합 생성부(101)는, 취득된 단어가 알파벳으로 구성된 문자열로 표기되어 있는지의 여부에 기초하여, 해당 단어가 외국어에 있어서의 철자로 이루어지는 문자열로 표기되어 있는지의 여부를 판별한다(스텝 S94). 이때, 취득된 단어가 외국어에 있어서의 철자로 이루어지는 문자열로 표기되어 있지 않다고 판별되면(스텝 S94; No), 도 4의 스텝 S02부터 처리가 반복된다.
이에 대하여, 취득된 단어가 외국어에 있어서의 철자로 이루어지는 문자열로 표기되어 있다고 판별되면(스텝 S94; Yes), 훈련 집합 생성부(101)는, 해당 취득된 외국어의 문자열을 검색 키워드로서, 상기 스텝 S91 및 스텝 S92와 동일한 처리를 실행한다(스텝 S95 및 스텝 S96).
그 후, 훈련 집합 생성부(101)는, 취득된 단어가 일본어에 있어서의 철자로 이루어지는 문자열로 표기되어 있는지의 여부를 판별한다(스텝 S98). 구체적으로는, 훈련 집합 생성부(101)는, 취득된 단어가 한자, 히라가나 및 가타카나 중 어느 1개 이상으로 구성된 문자열로 표기되어 있다고 판별하면, 해당 단어가 일본어에 있어서의 철자로 이루어지는 문자열로 표기되어 있다고 판별한다. 이에 대하여, 훈련 집합 생성부(101)는, 취득된 단어가 한자, 히라가나 및 가타카나 중 어떤 것으로도 구성되어 있지 않은 문자열로 표기되어 있다고 판별하면, 해당 단어가 일본어에 있어서의 철자로 이루어지는 문자열로 표기되어 있지 않다고 판별한다.
스텝 S98에 있어서, 취득된 단어가 일본어에 있어서의 철자로 이루어지는 문자열로 표기되어 있지 않다고 판별되면(스텝 S98; No), 도 4의 스텝 S02부터 처리가 반복된다. 이에 대하여, 취득된 단어가 일본어에 있어서의 철자로 이루어지는 문자열로 표기되어 있다고 판별되면(스텝 S98; Yes), 훈련 집합 생성부(101)는, 도 4의 스텝 S03에서 일본어 해설 항목으로부터 취득된 문자열과, 도 18의 스텝 97에서 스니펫으로부터 취득된 일본어의 문자열이 일치해 있는지의 여부를 판별한다(스텝 S99). 이때, 2개의 문자열이 일치해 있지 않다고 판별되면(스텝 S99; No), 도 4의 스텝 S02부터 처리가 반복된다.
스텝 S99에 있어서, 2개의 문자열이 일치해 있다고 판별되면(스텝 S99; Yes), 훈련 집합 생성부(101)는, 일본어의 해설 항목으로부터 취득된 일본어의 문자열과, 해당 일본어의 문자열에 기초해 검색된 스니펫으로부터 취득된 외국어의 문자열을 문자 변환쌍으로 한다(스텝 S100). 다음으로, 훈련 집합 생성부(101)는, 해당 외국어의 문자열을 원 철자 문자열 sn이라고 하고, 해당 일본어의 문자열을 목적 철자 문자열 tn(즉, 원 철자 문자열 sn의 문자 변환)이라고 한다. 그 후, 해당 문자 변환쌍을 훈련 집합에 추가하는, 도 4의 스텝 S09의 처리부터, 도 4의 훈련 집합 생성 처리의 실행이 계속된다.
또한, 본 변형예 4에 있어서, 문자 변환 처리 장치(100)는, 일본어 온라인 백과 사전의 해설 항목으로부터 취득한 일본어의 문자열에 기초해 검색된 스니펫으로부터 외국어의 문자열을 취득한다. 다음으로, 문자 변환 처리 장치(100)는, 취득된 외국어의 문자열에 기초해서 검색된 스니펫으로부터 일본어의 문자열을 취득한다. 그 후, 문자 변환 처리 장치(100)는, 이들 2개의 일본어의 문자열이 일치할 경우에, 외국어의 문자열을 원 철자 문자열 sn이라고 하고, 일본어의 문자열을 목적 철자 문자열 tn으로 한다고 하여 설명했다. 그러나, 이에 한정되는 것이 아니고, 이하의 변형예를 채용할 수 있다. 이 변형예에서, 문자 변환 처리 장치(100)는, 외국어 온라인 백과 사전의 해설 항목으로부터 취득한 외국어의 문자열에 기초해 검색된 스니펫으로부터 일본어의 문자열을 취득한다. 다음으로, 문자 변환 처리 장치(100)는, 취득된 일본어의 문자열에 기초해 검색된 스니펫으로부터 외국어의 문자열을 취득한다. 그 후, 문자 변환 처리 장치(100)는, 이들 2개의 문자열이 일치할 경우에, 외국어의 문자열을 원 철자 문자열 sn이라고 하고, 일본어의 문자열을 목적 철자 문자열 tn으로 해도 된다.
통상적으로, 서로 문자 변환 관계에 있는 원 철자 문자열 sn과 목적 철자 문자열 tn은, Web 페이지에 있어서, 서로 앞뒤에 위치하도록 기재되는 경우가 많다. 이 때문에, 이들 구성에 따르면, 원 철자 문자열 sn의 기원 언어가 불분명한 경우에도, 종래보다도 고 정밀도로 또한 간단히 원 철자 문자열 sn과 목적 철자 문자열 tn의 문자 변환쌍을 취득할 수 있다. 또한, 원 철자 문자열 sn의 기원 언어가 명확하지만, 해당 기원 언어에 있어서의 원 철자 문자열 sn의 음운이 불분명한 경우에도, 원 철자 문자열 sn과 목적 철자 문자열 tn의 문자 변환쌍을, 종래보다도 고 정밀도로 또한 간단히 취득할 수 있다.
본 실시예에서, 도 6a 내지 도 6d 및 도 9에 도시한 바와 같이, 목적 철자 문자열 tn은, 가타카나로 나타난다고 하여 도시 및 설명했지만, 이에 한정되는 것이 아니고, 예를 들면, 로마자나 발음 기호를 포함하는 다른 문자로 나타내도 좋다. 마찬가지로, 도 8a 내지 도 8d 및 도 9에 도시한 바와 같이, 문자 변환 단편 β는, 가타카나로 나타난다고 해서 도시 및 설명했지만, 이에 한정되는 것이 아니고, 예를 들면, 로마자나 발음 기호로 나타내도 좋다.
본 실시예와, 변형예 1 내지 3은, 서로 조합할 수 있다. 본 실시예에 따른 기능을 실현하기 위한 구성을 구비한 문자 변환 처리 장치(100)로서 제공할 수 있는 것은 물론, 복수의 장치로 구성되는 문자 변환 처리 시스템이며, 본 실시예에 따른 기능을 실현하기 위한 구성을 시스템 전체로서 구비한 문자 변환 처리 시스템으로서 제공할 수도 있다.
또한, 본 실시예에 따른 기능을 실현하기 위한 구성을 미리 구비한 문자 변환 처리 장치(100)로서 제공할 수 있는 것은 물론, 프로그램의 적용에 의해, 기존의 문자 변환 처리 장치(100)를 본 실시예에 따른 문자 변환 처리 장치(100)로서 기능시킬 수도 있는다. 즉, 상기 실시예에서 예시한 문자 변환 처리 장치(100)에 의한 각 기능 구성을 실현시키기 위한 문자 변환 처리 프로그램을, 기존의 문자 변환 처리 장치를 제어하는 컴퓨터(CPU 등)를 실행할 수 있도록 적용함으로써, 본 실시예에 따른 문자 변환 처리 장치(100)로서 기능시킬 수 있다.
이러한 프로그램의 배포 방법은 임의이고, 예를 들면, 메모리 카드, CD-ROM, 또는 DVD-ROM 등의 기록 매체에 저장해서 배포할 수 있고, 그 외에 인터넷 등의 통신 매체를 통해서 배포할 수도 있다. 또한, 본 발명에 따른 문자 변환 처리 방법은, 본 발명에 따른 문자 변환 처리 장치(100)를 이용해서 실시할 수 있다.
또한, 본 발명에 따른 문자 변환 처리 방법은, 문자 변환 처리 장치(100)를 이용해서 실시할 수 있다.
이상 본 발명의 바람직한 실시예에 대해서 상술했지만, 본 발명은 관련된 특정한 실시예에 한정되는 것이 아니고, 특허 청구의 범위에 기재된 본 발명의 요지의 범위 내에 있어서, 여러 가지 변형, 변경이 가능하다. 또한, 전술한 실시 형태는, 본 발명을 설명하기 위한 것이고, 본 발명의 범위를 한정하는 것이 아니다. 즉, 본 발명의 범위는, 실시 형태가 아니라, 청구 범위에 의해 나타난다. 그리고, 청구 범위 내 및 그와 동등한 발명의 의의의 범위 내에서 실시되는 다양한 변형이, 본 발명의 범위 내로 간주 된다.
본 출원은, 2011년 3월 4일에 출원된 일본 특허 출원 2011-48384호에 기초한다. 본 명세서 중에 일본 특허 출원 2011-48384호의 명세서, 특허 청구의 범위, 도면 전체를 참조로서 취득하는 것으로 한다.
[산업상 이용 가능성]
본 발명은, 단말 장치로부터 수신한 문자열이 문자 변환의 대상이 되는 문자열을 문자 변환한 것인지를 특정하는 서비스를, 단말 장치의 요구에 응답해 제공하는 서버 장치에 적합하다.
10: 통신망
100: 문자 변환 처리 장치
100a: CPU
100b: ROM
100c: RAM
100d: 하드디스크
100e: 미디어 컨트롤러
100f: LAN카드
100g: 비디오 카드
100h: LCD
100i: 키보드
100j: 스피커
100k: 마우스
101: 훈련 집합 생성부
102: 정보 취득부
103: 정보 기억부
104: 수신부
105: 생성부
105a: 제1 생성부
105b: 제2 생성부
106: 초기화부
107: 갱신부
107a: 기대값 산출부
107b: 판정부
107c: 최대화부
108: 확률 출력부
109: 후보 출력부
200: 단말 장치
301: 일본어 DB 서버
302: 외국어 DB 서버
400: 검색 엔진

Claims (11)

  1. 문자열의 읽는 법을 정하는 언어인 임의의 기원 언어에 있어서의 철자로 이루어지는 문자열인 원 철자 문자열과, 해당 원 철자 문자열을 소정의 목적 언어로 문자 변환한 철자로 이루어지는 목적 철자 문자열의 문자 변환쌍을 복수 포함하는 훈련 집합으로부터, 상기 원 철자 문자열을 구성하는 원 단편과, 상기 목적 철자 문자열을 구성하는 문자 변환 단편과, 문자 변환을 위해서 해당 원 단편이 해당 문자 변환 단편으로 바뀌어 쓰여지는 재기입 확률과의 세트를 복수 포함하는, 서로 다른 K개의 기원 언어에 대응한 K개의 재기입표와, 상기 훈련 집합에 포함되는 문자 변환쌍을 복수 포함하는, 상기 K개의 기원 언어에 대응한 K개의 문자 변환표를 생성하는 생성부,
    상기 훈련 집합에 복수 포함되는 문자 변환쌍의 각각에 대하여, 상기 K개의 재기입표에 포함되는 재기입 확률의 각각을 이용함으로써, 해당 문자 변환쌍의 원 철자 문자열이 해당 재기입표에 대응한 기원 언어를 기원으로 하는 경우에 해당 문자 변환쌍의 목적 철자 문자열로 문자 변환되는 문자 변환 확률을 산출하고나서, 해당 문자 변환 확률을 해당 문자 변환쌍과 대응지어서 해당 기원 언어에 대응한 문자 변환표에 저장한 후에, 상기 훈련 집합이 얻어진 경우에서의 상기 K개의 문자 변환표의 가능성을 나타내는 우도(likelihood)를 산출하는 우도 함수의 기대값으로서, 해당 문자 변환 확률을 이용해서 산출되는 값을 최대화하도록, 상기 K개의 재기입표의 각각에 포함되는 재기입 확률을 갱신한 후에, 상기 문자 변환 확률의 산출과 상기 재기입 확률의 갱신을 반복하는 갱신부
    를 구비하는 것을 특징으로 하는 문자 변환 처리 장치.
  2. 제1항에 있어서,
    상기 K개의 문자 변환표의 각각에 대응한 기원 언어를 기원으로 하는 원 철자 문자열이, 상기 훈련 집합에 포함되는 복수의 원 철자 문자열에서 차지하는 비율을 각각 나타내는, 상기 K개의 문자 변환표의 가중치 파라미터를 초기화하는 초기화부를 더 구비하고,
    상기 갱신부는, 상기 훈련 집합에 복수 포함되는 문자 변환쌍의 각각에 대하여, 상기 K개의 문자 변환표에 포함되는 해당 문자 변환 확률의 상기 가중치 파라미터에 의한 가중치 부여 평균에 기초하여, 상기 원 철자 문자열의 기원 언어가 해당 문자 변환표에 대응한 기원 언어인 기원 확률을 각각 산출한 후에, 해당 기원 확률을 더 이용하여 산출되는 상기 우도 함수의 기대값을 최대화하도록, 상기 K개의 가중치 파라미터를 갱신한 후에, 상기 기원 확률의 산출과 상기 가중치 파라미터의 갱신을 반복하는
    것을 특징으로 하는 문자 변환 처리 장치.
  3. 제2항에 있어서,
    상기 생성부는, 1개의 상기 재기입표를 생성한 후에, 상기 생성된 1개의 재기입표에 포함되는 재기입 확률을, 상기 K개의 언어마다 변화시키는 것에 의해, 상기 K개의 언어에 대응한 K개의 재기입표를 생성하는
    것을 특징으로 하는 문자 변환 처리 장치.
  4. 제2항에 있어서,
    상기 생성부는, 1개의 상기 재기입표를 이용한 αβ법에 의해 1개의 상기 문자 변환표를 생성한 후에, 상기 생성된 1개의 문자 변환표에 포함되는 문자 변환 확률을 변화시키는 것에 의해, 상기 K개의 언어에 대응한 K개의 문자 변환표를 생성하고,
    상기 갱신부는, 상기 K개의 문자 변환표의 각각에 포함되는 문자 변환 확률을 EM 알고리즘에 의해 갱신하는
    것을 특징으로 하는 문자 변환 처리 장치.
  5. 제3항 또는 제4항에 있어서,
    상기 갱신부는, 상기 갱신에 의한 상기 우도 함수의 기대값의 변화량이, 소정 크기 미만이 될 때까지 상기 갱신을 반복하는
    것을 특징으로 하는 문자 변환 처리 장치.
  6. 제5항에 있어서,
    상기 임의의 기원 언어에 있어서의 철자로 이루어지는 제1 문자열과, 상기 소정의 목적 언어에 있어서의 철자로 이루어지는 제2 문자열을 접수하는 접수부,
    상기 K개의 문자 변환표의 각각을 이용함으로써 상기 접수된 제1 문자열이 상기 접수된 제2 문자열로 문자 변환되는 문자 변환 확률을 구하고, 해당 구해진 문자 변환 확률을 출력하는 확률 출력부
    를 더 구비하는 것을 특징으로 하는 문자 변환 처리 장치.
  7. 제5항에 있어서,
    상기 임의의 기원 언어에 있어서의 철자로 이루어지는 제1 문자열을 접수하는 접수부,
    상기 K개의 문자 변환표의 각각을 이용함으로써 상기 접수된 제1 문자열이 문자 변환 될 수 있는 상기 소정의 목적 언어에 있어서의 후보 문자열과, 해당 제1 문자열이 해당 후보 문자열로 문자 변환되는 문자 변환 확률을 구하고, 해당 구해진 문자 변환 확률이 높은 순으로 해당 구해진 후보 문자열을 출력하는 후보 출력부
    를 더 구비하는 것을 특징으로 하는 문자 변환 처리 장치.
  8. 제6항에 있어서,
    상기 접수부는, 상기 훈련 집합에 포함되어 있지 않은 제1 문자열을 접수하는
    것을 특징으로 하는 문자 변환 처리 장치.
  9. 제7항에 있어서,
    상기 접수부는, 상기 훈련 집합에 포함되어 있지 않은 제1 문자열을 접수하는
    것을 특징으로 하는 문자 변환 처리 장치.
  10. 컴퓨터를,
    문자열의 읽는 법을 정하는 언어인 임의의 기원 언어에 있어서의 철자로 이루어지는 문자열인 원 철자 문자열과, 해당 원 철자 문자열을 소정의 목적 언어로 문자 변환한 철자로 이루어지는 목적 철자 문자열의 문자 변환쌍을 복수 포함하는 훈련 집합으로부터, 상기 원 철자 문자열을 구성하는 원 단편과, 상기 목적 철자 문자열을 구성하는 문자 변환 단편과, 문자 변환을 위해서 해당 원 단편이 해당 문자 변환 단편으로 바뀌어 쓰여지는 재기입 확률과의 세트를 복수 포함하는, 서로 다른 K개의 기원 언어에 대응한 K개의 재기입표와, 상기 훈련 집합에 포함되는 문자 변환쌍을 복수 포함하는, 상기 K개의 기원 언어에 대응한 K개의 문자 변환표를 생성하는 생성부,
    상기 훈련 집합에 복수 포함되는 문자 변환쌍의 각각에 대하여, 상기 K개의 재기입표에 포함되는 재기입 확률의 각각을 이용함으로써, 해당 문자 변환쌍의 원 철자 문자열이 해당 재기입표에 대응한 기원 언어를 기원으로 하는 경우에 해당 문자 변환쌍의 목적 철자 문자열로 문자 변환되는 문자 변환 확률을 산출하고나서, 해당 문자 변환 확률을 해당 문자 변환쌍과 대응지어서 해당 기원 언어에 대응한 문자 변환표에 저장한 후에, 상기 훈련 집합이 얻어진 경우에서의 상기 K개의 문자 변환표의 가능성을 나타내는 우도를 산출하는 우도 함수의 기대값으로서, 해당 문자 변환 확률을 이용해서 산출되는 값을 최대화하도록, 상기 K개의 재기입표의 각각에 포함되는 재기입 확률을 갱신한 후에, 상기 문자 변환 확률의 산출과 상기 재기입 확률의 갱신을 반복하는 갱신부
    로서 기능시키는 것을 특징으로 하는 문자 변환 처리 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
  11. 생성부 및 갱신부를 구비하는 문자 변환 처리 장치가 실행하는 방법으로서,
    상기 생성부가, 문자열의 읽는 법을 정하는 언어인 임의의 기원 언어에 있어서의 철자로 이루어지는 문자열인 원 철자 문자열과, 해당 원 철자 문자열을 소정의 목적 언어로 문자 변환한 철자로 이루어지는 목적 철자 문자열의 문자 변환쌍을 복수 포함하는 훈련 집합으로부터, 상기 원 철자 문자열을 구성하는 원 단편과, 상기 목적 철자 문자열을 구성하는 문자 변환 단편과, 문자 변환을 위해서 해당 원 단편이 해당 문자 변환 단편으로 바뀌어 쓰여지는 재기입 확률과의 세트를 복수 포함하는, 서로 다른 K개의 기원 언어에 대응한 K개의 재기입표와, 상기 훈련 집합에 포함되는 문자 변환쌍을 복수 포함하는, 상기 K개의 기원 언어에 대응한 K개의 문자 변환표를 생성하는 생성 스텝,
    상기 갱신부가, 상기 훈련 집합에 복수 포함되는 문자 변환쌍의 각각에 대하여, 상기 K개의 재기입표에 포함되는 재기입 확률의 각각을 이용함으로써, 해당 문자 변환쌍의 원 철자 문자열이 해당 재기입표에 대응한 기원 언어를 기원으로 하는 경우에 해당 문자 변환쌍의 목적 철자 문자열로 문자 변환되는 문자 변환 확률을 산출하고나서, 해당 문자 변환 확률을 해당 문자 변환쌍과 대응지어서 해당 기원 언어에 대응한 문자 변환표에 저장한 후에, 상기 훈련 집합이 얻어진 경우에서의 상기 K개의 문자 변환표의 가능성을 나타내는 우도를 산출하는 우도 함수의 기대값으로서, 해당 문자 변환 확률을 이용해서 산출되는 값을 최대화하도록, 상기 K개의 재기입표의 각각에 포함되는 재기입 확률을 갱신한 후에, 상기 문자 변환 확률의 산출과 상기 재기입 확률의 갱신을 반복하는 갱신 스텝
    을 갖는 것을 특징으로 하는 문자 변환 처리 방법.
KR1020137007988A 2011-03-04 2012-02-28 문자 변환 처리 장치, 기록 매체 및 방법 KR101326354B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JPJP-P-2011-048384 2011-03-04
JP2011048384A JP5090547B2 (ja) 2011-03-04 2011-03-04 翻字処理装置、翻字処理プログラム、翻字処理プログラムを記録したコンピュータ読み取り可能な記録媒体、及び翻字処理方法
PCT/JP2012/054956 WO2012121063A1 (ja) 2011-03-04 2012-02-28 翻字処理装置、プログラム、記録媒体、及び方法

Publications (2)

Publication Number Publication Date
KR20130038959A KR20130038959A (ko) 2013-04-18
KR101326354B1 true KR101326354B1 (ko) 2013-11-11

Family

ID=46798031

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020137007988A KR101326354B1 (ko) 2011-03-04 2012-02-28 문자 변환 처리 장치, 기록 매체 및 방법

Country Status (9)

Country Link
US (1) US9323744B2 (ko)
EP (1) EP2672395A4 (ko)
JP (1) JP5090547B2 (ko)
KR (1) KR101326354B1 (ko)
CN (1) CN103140849B (ko)
BR (1) BR112013007127A2 (ko)
CA (1) CA2813218C (ko)
TW (1) TWI465941B (ko)
WO (1) WO2012121063A1 (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5825639B2 (ja) * 2012-07-20 2015-12-02 日本電信電話株式会社 記号列対応付け装置、記号列変換モデル学習装置、記号列変換装置、方法、及びプログラム
US9176936B2 (en) * 2012-09-28 2015-11-03 International Business Machines Corporation Transliteration pair matching
JP6044996B2 (ja) * 2013-07-18 2016-12-14 日本電信電話株式会社 文字列対応付け装置、方法、及びプログラム
KR101609184B1 (ko) * 2014-05-27 2016-04-06 네이버 주식회사 사전 기능을 제공하는 방법과 시스템, 그리고 기록 매체 및 파일 배포 시스템
CN105786802B (zh) * 2014-12-26 2019-04-12 广州爱九游信息技术有限公司 一种外语的音译方法及装置
US10225555B2 (en) * 2015-05-19 2019-03-05 Mediatek Inc. Method and apparatus for multi-table based context adaptive binary arithmetic coding
US10185710B2 (en) * 2015-06-30 2019-01-22 Rakuten, Inc. Transliteration apparatus, transliteration method, transliteration program, and information processing apparatus
RU2632137C2 (ru) 2015-06-30 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер транскрипции лексической единицы из первого алфавита во второй алфавит
KR101917648B1 (ko) * 2016-09-08 2018-11-13 주식회사 하이퍼커넥트 단말 및 그 제어 방법
KR102197227B1 (ko) * 2019-05-23 2020-12-31 한국과학기술원 문자 변환 방법 및 이를 수행하는 장치들
CN110728156B (zh) * 2019-12-19 2020-07-10 北京百度网讯科技有限公司 翻译方法、装置、电子设备及可读存储介质
US20230130019A1 (en) 2021-10-27 2023-04-27 Bank Of America Corporation Abstraction Layer for Efficient Transliteration of Machine Interpretable Languages
JP2023183618A (ja) * 2022-06-16 2023-12-28 国立研究開発法人情報通信研究機構 機械翻訳用訓練データ生成方法、機械翻訳処理用の学習可能モデルの作成方法、機械翻訳処理方法、および、機械翻訳用訓練データ生成装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001296880A (ja) * 2000-03-27 2001-10-26 Lucent Technol Inc 固有名の複数のもっともらしい発音を生成する方法および装置
JP2005092682A (ja) * 2003-09-19 2005-04-07 Nippon Hoso Kyokai <Nhk> 翻字装置、及び翻字プログラム
JP2007156545A (ja) * 2005-11-30 2007-06-21 Nippon Telegr & Teleph Corp <Ntt> 記号列変換方法、単語翻訳方法、その装置およびそのプログラム並びに記録媒体

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7369986B2 (en) * 2003-08-21 2008-05-06 International Business Machines Corporation Method, apparatus, and program for transliteration of documents in various Indian languages
US7310605B2 (en) * 2003-11-25 2007-12-18 International Business Machines Corporation Method and apparatus to transliterate text using a portable device
US8548791B2 (en) * 2007-08-29 2013-10-01 Microsoft Corporation Validation of the consistency of automatic terminology translation
US7983903B2 (en) * 2007-09-07 2011-07-19 Microsoft Corporation Mining bilingual dictionaries from monolingual web pages
US8655643B2 (en) * 2007-10-09 2014-02-18 Language Analytics Llc Method and system for adaptive transliteration
CN101593173B (zh) * 2008-05-28 2011-08-10 中国科学院自动化研究所 一种汉英反向音译方法及装置
US8521761B2 (en) * 2008-07-18 2013-08-27 Google Inc. Transliteration for query expansion
US8275600B2 (en) * 2008-10-10 2012-09-25 Google Inc. Machine learning for transliteration
US8306806B2 (en) * 2008-12-02 2012-11-06 Microsoft Corporation Adaptive web mining of bilingual lexicon
US20110218796A1 (en) * 2010-03-05 2011-09-08 Microsoft Corporation Transliteration using indicator and hybrid generative features
US8326600B2 (en) * 2010-08-11 2012-12-04 Google Inc. Evaluating and modifying transliteration rules

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001296880A (ja) * 2000-03-27 2001-10-26 Lucent Technol Inc 固有名の複数のもっともらしい発音を生成する方法および装置
JP2005092682A (ja) * 2003-09-19 2005-04-07 Nippon Hoso Kyokai <Nhk> 翻字装置、及び翻字プログラム
JP2007156545A (ja) * 2005-11-30 2007-06-21 Nippon Telegr & Teleph Corp <Ntt> 記号列変換方法、単語翻訳方法、その装置およびそのプログラム並びに記録媒体

Also Published As

Publication number Publication date
TWI465941B (zh) 2014-12-21
US9323744B2 (en) 2016-04-26
CA2813218A1 (en) 2012-09-13
US20130246042A1 (en) 2013-09-19
EP2672395A1 (en) 2013-12-11
CA2813218C (en) 2014-04-15
JP5090547B2 (ja) 2012-12-05
WO2012121063A1 (ja) 2012-09-13
EP2672395A4 (en) 2015-07-01
TW201250498A (en) 2012-12-16
BR112013007127A2 (pt) 2016-06-14
KR20130038959A (ko) 2013-04-18
CN103140849B (zh) 2015-01-14
CN103140849A (zh) 2013-06-05
JP2012185679A (ja) 2012-09-27

Similar Documents

Publication Publication Date Title
KR101326354B1 (ko) 문자 변환 처리 장치, 기록 매체 및 방법
CN108287858B (zh) 自然语言的语义提取方法及装置
US8612206B2 (en) Transliterating semitic languages including diacritics
CN102982021B (zh) 用于消除语言转换中的多个读法的歧义的方法
US9262403B2 (en) Dynamic generation of auto-suggest dictionary for natural language translation
JP5379138B2 (ja) 領域辞書の作成
JP2021197133A (ja) 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
JP6705318B2 (ja) 対訳辞書作成装置、対訳辞書作成方法、及び対訳辞書作成プログラム
US10650195B2 (en) Translated-clause generating method, translated-clause generating apparatus, and recording medium
KR20210035721A (ko) 다중-언어 코퍼스를 이용하여 기계번역 하는 방법 및 이를 구현한 시스템
US20190303437A1 (en) Status reporting with natural language processing risk assessment
CN111259262A (zh) 一种信息检索方法、装置、设备及介质
US20180089180A1 (en) Method, device, and recording medium for providing translated sentence
JP2007156545A (ja) 記号列変換方法、単語翻訳方法、その装置およびそのプログラム並びに記録媒体
JP2010134922A (ja) 類似語決定方法およびシステム
JP2019016074A (ja) オントロジー生成装置、オントロジー生成プログラム及びオントロジー生成方法
JP6495124B2 (ja) 用語意味コード判定装置、用語意味コード判定モデル学習装置、方法、及びプログラム
JP6584361B2 (ja) キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム
CN108536685B (zh) 信息处理装置
JP5320326B2 (ja) 記号変換装置、記号変換方法、記号変換プログラム
US20210142010A1 (en) Learning method, translation method, information processing apparatus, and recording medium
Lehal et al. Automatic Bilingual Legacy-Fonts Identification and Conversion System.
Tung et al. A modified phoneme-based Chinese input method for minimizing conflict code rate
JP2024034877A (ja) 入力データ作成支援装置、及び入力データ作成支援方法
JP5378109B2 (ja) タスクモデル生成装置およびタスクモデル生成方法

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20161021

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20171020

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20181023

Year of fee payment: 6