WO2015083762A1

WO2015083762A1 - 学習装置、翻訳装置、学習方法、および翻訳方法

Info

Publication number: WO2015083762A1
Application number: PCT/JP2014/082058
Authority: WO
Inventors: 功雄後藤
Original assignee: 独立行政法人情報通信研究機構
Priority date: 2013-12-04
Filing date: 2014-12-04
Publication date: 2015-06-11
Also published as: EP3079075A1; EP3079075A4; US20160306793A1; KR20160093011A; CN105849718A; US9779086B2; CN105849718B; JP2015108975A; JP5843117B2

Abstract

【課題】従来、精度の高い翻訳ができなかった。【解決手段】１以上の各対訳文が有する目的言語文を構文解析し、１以上の目的言語部分構造を有する目的言語文の二分木を取得する構文解析部と、原言語の１以上の要素を取得する原言語要素取得部と、目的言語文の二分木が有する１以上の目的言語部分構造が示す構造を用いて、フレーズラベルを有する親ノードとフレーズラベルまたは原言語の要素を有する２つの子ノードとを含む１以上の原言語部分構造を取得する原言語部分構造取得部と、並び替えラベルを１以上の原言語部分構造に付与するラベル付与部と、１以上のラベル付き原言語部分構造を用いて、ラベル付き原言語部分構造の出現の確率情報を有する１以上の構文解析モデルを構築するモデル構築部と、１以上の構文解析モデルを有する原言語文の二分木を蓄積する蓄積部とを具備する学習装置により、精度の高い翻訳が可能となるモデルを学習する。

Description

学習装置、翻訳装置、学習方法、および翻訳方法

　本発明は、機械翻訳に利用するモデルを学習する学習装置等に関するものである。

　従来、機械翻訳において、語順を並び替える方法の一つとして、訳語選択の前に語順を並び替えるプレオーダリングという手法がある。

　既存のプレオーダリング手法には、原言語の構文解析器を活用する手法が多く提案されている（例えば、非特許文献１参照）。

　また、構文解析器を全く使用しない手法も提案されている（例えば、非特許文献２参照）。

Hideki Isozaki, Katsuhito Sudoh, Hajime Tsukada, and Kevin Duh. 2010. Head Finalization: A Simple Reordering Rule for SOV Languages. In Proceedings of the Joint Fifth Workshop on Statistical Machine Translation and MetricsMATR, Uppsala, Sweden, 244-251. Graham Neubig, Taro Watanabe, and Shinsuke Mori. 2012. Inducing a discriminative parser to optimize machine translation reordering. In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pages 843-853, Jeju Island, Korea, July. Association for Computational Linguistics.

　しかしながら、非特許文献１が採用する原言語の構文解析器を活用するプレオーダリング手法は、原言語の構文解析器がない場合には利用できない。また、原言語の構文解析器の性能が低い場合には、語順並べ替えの性能も低くなる。

　また、非特許文献２が採用する構文解析器を全く必要としないプレオーダリング手法は、構文解析器を活用しないために語順の並べ替えの性能に課題がある。

　その結果、従来の機械翻訳技術では、精度の高い翻訳ができなかった。

　本第一の発明の学習装置は、原言語文と原言語文の翻訳結果である目的言語文とを有する１以上の対訳文を格納し得る対訳コーパスと、原言語の要素と目的言語の要素との対である１以上の要素対を格納し得る要素対格納部と、１以上の各対訳文が有する目的言語文を構文解析した結果であり、目的言語文を構成する２以上の要素の順序を示し、かつフレーズラベルを有する親ノードと親ノードの子ノードであり目的言語のフレーズラベルまたは原言語のＰＯＳタグまたは原言語の要素を有する２つの子ノードとを含む１以上の目的言語部分構造を有する目的言語文の二分木を取得する構文解析部と、目的言語文に対応する原言語文を構成する１以上の要素であり、目的言語文の二分木が有する１以上の目的言語部分構造の終端の子ノードである目的言語の要素に対応する原言語の１以上の要素を、要素対格納部の１以上の要素対から取得する原言語要素取得部と、目的言語文の二分木が有する１以上の目的言語部分構造が示す構造を、原言語文を構成する原言語の１以上の要素に適用し、原言語文を構成する２以上の要素の順序を示し、フレーズラベルを有する親ノードと親ノードの子ノードでありフレーズラベルまたは原言語のＰＯＳタグを有する２つの子ノードとを含む１以上の原言語部分構造を取得する原言語部分構造取得部と、目的言語部分構造に含まれる２つの子ノードの順序と対応する原言語部分構造に含まれる２つの子ノードの順序とが異なる原言語部分構造と、目的言語部分構造に含まれる２つの子ノードの順序と対応する原言語部分構造に含まれる２つの子ノードの順序とが同じ原言語部分構造とを区別可能なラベルである並び替えラベルを、１以上の原言語部分構造に付与し、１以上のラベル付き原言語部分構造を取得するラベル付与部と、１以上のラベル付き原言語部分構造を用いて、ラベル付き原言語部分構造の出現し易さを示す確率情報を有する１以上の構文解析モデルを構築するモデル構築部と、モデル構築部が構築した１以上の構文解析モデルを蓄積する蓄積部とを具備する学習装置である。

　かかる構成により、精度の高い翻訳が可能となるモデルを学習できる。

　また、本第二の発明の学習装置は、第一の発明に対して、原言語文を構成する２以上の要素の順序を示す１以上の原言語部分構造を用いて、目的言語文の要素の順序に対して予め決められた条件を満たすほど近い順序になるように、原言語文を構成する２以上の要素の順序を並び替えた１以上の原言語部分構造を取得する並替部をさらに具備し、ラベル付与部は、並替部が並び替えた１以上の原言語部分構造に対して、並び替え用のラベルを付与する学習装置である。

　かかる構成により、より精度の高い翻訳が可能となるモデルを学習できる。

　また、本第三の発明の学習装置は、第一または第二の発明に対して、フレーズラベルを有する親ノードと親ノードの子ノードでありフレーズラベルまたは原言語のＰＯＳタグを有する２つの子ノードとを含むＣＦＧルールの統計モデルを格納し得る統計モデル格納部をさらに具備し、原言語部分構造取得部は、目的言語文の二分木が有する１以上の目的言語部分構造が示す構造を、原言語文を構成する原言語の１以上の要素に適用し、原言語文を構成する２以上の要素の順序を示し、フレーズラベルを有する親ノードと親ノードの子ノードでありフレーズラベルまたは原言語の要素を有する２つの子ノードとを有する１以上の原言語部分構造を取得する原言語部分構造取得手段と、原言語部分構造取得手段が取得した１以上の原言語部分構造のうち、不完全な原言語部分構造が存在する場合、原言語部分構造に対して、統計モデルを適用し、完全な原言語部分構造を取得する部分構造補完手段とを具備する学習装置である。

　また、本第四の発明の翻訳装置は、第一から第三いずれかの発明に対して、学習装置が蓄積した１以上の構文解析モデルを格納している二分木格納部と、原言語の要素と目的言語の要素との対である２以上の要素対を格納し得る要素対格納部と、原言語文を受け付ける受付部と、１以上の構文解析モデルを用いて、受付部が受け付けた原言語文が有する２以上の各要素から１以上のラベル付き原言語部分構造を取得するラベル付き原言語部分構造取得部と、１以上のラベル付き原言語部分構造が有する並び替えラベルが、目的言語部分構造に含まれる２つの子ノードの順序と原言語部分構造に含まれる２つの子ノードの順序とが異なることを示す並び替えラベルである場合、並び替えラベルに対応するラベル付き原言語部分構造が有する２つの子ノードの順序を並び替える処理を行い、並び替えられた後の原言語の２以上の要素を取得する翻訳並替部と、翻訳並替部が取得した原言語の２以上の各要素に対応する目的言語の２以上の要素を、要素対格納部から取得する検索部と、検索部が取得した２以上の要素からなる目的言語文を出力する出力部とを具備する翻訳装置である。

　かかる構成により、精度の高い翻訳が可能となる。

　また、本第五の発明の翻訳装置は、第四の発明に対して、１以上の原言語文の二分木を構成する１以上の各ラベル付き原言語部分構造が有する原言語の要素はＰＯＳタグに対応付いており、受付部が受け付けた原言語文を形態素解析し、ＰＯＳタグに対応付いている２以上の要素を取得する形態素解析部をさらに具備し、ラベル付き原言語部分構造取得部は、１以上の原言語文の二分木を用いて、ＰＯＳタグに対応付いている２以上の要素から１以上のラベル付き原言語部分構造を取得する翻訳装置である。

　かかる構成により、より精度の高い翻訳が可能となる。

　本発明による学習装置によれば、精度の高い翻訳が可能となるモデルを学習できる。

本発明の実施の形態１における学習装置１のブロック図同学習装置１の動作について説明するフローチャート同学習装置１の動作について説明するフローチャート同構文解析部１４が取得する二分木示す図同原言語要素取得部１５が取得する原言語の要素を示す図同原言語部分構造の概念を示す図同原言語部分構造を示す図同１以上の原言語部分構造を有する二分木を示す図同１以上の原言語部分構造を有する二分木を示す図同１以上のラベル付き原言語部分構造を有する二分木を示す図本発明の実施の形態２における翻訳装置２のブロック図同翻訳装置２の動作について説明するフローチャート同１以上のラベル付き原言語部分構造を有する二分木を示す図同原言語文の単語を目的言語の語順に並び替えた結果を示す図同翻訳品質の評価結果を示す図上記実施の形態におけるコンピュータシステムの概観図同コンピュータシステムのブロック図

　以下、学習装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。

　（本発明の実施の形態１）
　本実施の形態において、プレオーダリングのモデルを学習する学習装置について説明する。また、本実施の形態において、翻訳時に一定以内の語順変更となるような制約に基づいて、プレオーダリングのモデルを学習する学習装置について説明する。さらに、本実施の形態において、統計モデルを利用する学習装置について説明する。

　図１は、本実施の形態における学習装置１のブロック図である。

　学習装置１は、記録媒体１０、対訳コーパス１１、要素対格納部１２、統計モデル格納部１３、構文解析部１４、原言語要素取得部１５、原言語部分構造取得部１６、並替部１７、ラベル付与部１８、モデル構築部１９および蓄積部２０を備える。

　原言語部分構造取得部１６は、原言語部分構造取得手段１６１、および部分構造補完手段１６２を備える。

　記録媒体１０は、プレオーダリングのモデル（以下、適宜「プレオーダリングモデル」という。）を格納し得る。プレオーダリングモデルは、蓄積部２０が蓄積する１以上の構文解析モデルである。構文解析モデルは、原言語文の二分木である。原言語文の二分木は、原言語文から構成され得る二分木である。この二分木は、１以上のラベル付き原言語部分構造を有する。構文解析モデルは、通常、ラベル付き原言語部分構造の出現し易さを示す確率情報を有する。ラベル付き原言語部分構造は、親ノードと２つの子ノードとを含む。親ノードは、フレーズラベルを有する。親ノードは、例えば、フレーズラベルそのものでも良く、親ノードを識別するＩＤとフレーズラベルとを有しても良い。また、親ノードは、自身の下位の子ノードを識別する情報を有しても良い。また、親ノードは、通常、並び替えラベルを有する。また、２つの子ノードは、対応する親ノードの下位のノードであり、兄弟のノードとも言うこととする。子ノードは、フレーズラベルまたは原言語の要素を有する。子ノードは、フレーズラベルまたは原言語の要素そのものでも良く、子ノードを識別するＩＤとフレーズラベルまたは原言語の要素とを有しても良い。親ノードと子ノードのデータ構造は問わない。なお、フレーズラベルは、品詞を示す情報であり、例えば、ＰＯＳタグである。なお、ＰＯＳタグは、品詞を示す情報である。また、親ノードや子ノードは、対応する要素（単語等）の隠れクラスを有しても良い。隠れクラスとは、要素をグループ化した際のグループ識別子である。構文解析のモデルの例は、「0.01 S_ST -> NP_ST VP_SW」「0.005 S_ST¹ -> NP_ST² VP_SW⁴」である。なお、ラベルの右側に追加されている数字は隠れクラスを示す。隠れクラスとは、要素(単語等)をグループ化した際のグループ識別子である。

　フレーズラベルは、フレーズの種類を識別する情報であり、例えば、「S」（文であることを示す）、「VP」（動詞句であることを示す）、「NP」（名詞句であることを示す）等である。

　また、並び替えラベルとは、第一種の原言語部分構造と第二種の原言語部分構造とを区別可能なラベルである。ここで、第一種の原言語部分構造とは、目的言語部分構造に含まれる２つの子ノードの順序と当該目的言語部分構造に対応する原言語部分構造に含まれる２つの子ノードの順序とが異なる原言語部分構造である。また、第二種の原言語部分構造とは、目的言語部分構造に含まれる２つの子ノードの順序と当該目的言語部分構造に対応する原言語部分構造に含まれる２つの子ノードの順序とが同じ原言語部分構造である。

　並び替えラベルは、例えば、並び替えることを示すラベルである「_SW」、並び替えないことを示すラベルである「_ST」等である。また、第一種の原言語部分構造と第二種の原言語部分構造の両方に並び替えラベルが付加されても良いし、どちらか一方の原言語部分構造に並び替えラベルが付加されても良い。なお、並び替えラベルは、通常、原言語部分構造の親ノードが保持している。なお、「ST」は「straight」の略であり、「SW」は「switch」の略である。

　また、フレーズラベルと並び替えラベルとは、一緒に表現されても良い。かかる場合、フレーズラベルと並び替えラベルとは、例えば、「フレーズラベル＿並び替えラベル」と表現され、例えば、「S_ST」「VP_SW」「NP_ST」等である。なお、「S_ST」は、文を構成する原言語部分構造であり、並び替えられないことを示す。また、「VP_SW」は、動詞句を構成する原言語部分構造であり、並び替えられることを示す。さらに、「NP_ST」は、名詞句を構成する原言語部分構造であり、並び替えられないことを示す。

　なお、プレオーダリングモデルは、例えば、確率の情報を有するＣＦＧ(context-free grammer)を用いた解析とＩＴＧ（inversion transduction grammar）（「Dekai Wu. 1997. Stochastic inversion transduction grammars and bilingual parsing of parallel corpora.Computational Linguistics, 23(3):377-403.」参照）の基本的なフレームワークに基づいている。このプレオーダリングモデルは、ＩＴＧパージングモデルとも言うこととする。

　対訳コーパス１１は、１以上の対訳文を格納し得る。対訳文は、原言語文と目的言語文とを有する。この目的言語文は、原言語文の翻訳結果である。原言語文と目的言語とは、異なる言語であれば良く、言語は問わない。但し、ここでは、原言語文と目的言語は、日本語と英語など、語順が大きく異なる言語であることは好適である。

　要素対格納部１２は、１または２以上の要素対を格納し得る。要素対とは、原言語の要素と目的言語の要素との対である。要素とは、単語、形態素、句等、文を構成する部分である。要素は２以上の用語列や文でも良い。また、要素対は、原言語の要素と目的言語の要素と対応の確率に関する情報を保持していても良い。また、要素対格納部１２は、いわゆる用語辞書と言っても良い。

　統計モデル格納部１３は、ＣＦＧルールの統計モデルを格納し得る。ＣＦＧルールとは、親ノードと２つの子ノードとを含む。ここでの親ノードはフレーズラベルを有する。また、子ノードはフレーズラベルまたは原言語のＰＯＳタグを有する。

　統計モデルは、例えば、確率の情報を有するＣＦＧモデルである。そして、本ＣＦＧモデルを構築する手段として、例えば、Ｐｉｔｍａｎ－Ｙｏｒ（以下、適宜「ＰＹ」という。）過程が用いられる。ＰＹ過程は、公知技術であるので詳細な説明を省略する。ＰＹ過程については、「Jim Pitman and Marc Yor. 1997. The two-parameter poisson-dirichlet distribution derived from a stable subordinator. The Annals of Probability, 25(2):855-900.」を参照のこと。

　また、ＣＦＧルールのセットをＲ、目的言語の構文のフレーズラベルのセットをＬ、原言語のＰＯＳタグのセットをＴとする。かかる場合、導出木ｔの確率「Ｐ（ｔ）」は以下の数式１のように示される。なお、導出木ｔは、原言語の木構造の構文構造である。

　数式１において、「ｘ→α」はＣＦＧルール、「ｃ（ｘ→α，ｔ）」は導出木ｔで使用されている「ｘ→α」の数、「ｘ∈Ｌ」はＣＦＧルールの親ノードのフレーズラベル、「Ｐ（α｜ｘ）」は親ノードのフレーズラベル「ｘ」が与えられた場合のαが生成される確率である。指定されたフレーズラベルは、導出木ｔの親ノードのフレーズラベルとして使用される。

　また、ＰＹモデルは、ＣＦＧルールの分布であり、数式２のように示される。

　数式２において、「ｄ」「θ」はＰＹモデルのハイパーパラメータである。

　また、バックオフ確率「Ｐbase（α｜ｘ）」は、例えば、数式３に示すように定数を使うことができる。バックオフ確率とはバックオフスムージングを行う際に用いる確率である。

　なお、数式３において、「｜L|」は目的言語の構文のフレーズラベルの種類の数、「｜T|」は原言語のＰＯＳタグの種類の数である。ここで、ＣＦＧルールは、２つの子ノードを有し、子ノードはフレーズラベルまたはＰＯＳタグであるので、対になる子ノードの種類の数が「（｜Ｌ｜＋｜Ｔ｜）^２」である。

　構文解析部１４は、目的言語文の１以上の二分木を取得する。この二分木は、１以上の目的言語部分構造を有する。構文解析部１４は、通常、１以上の各対訳文が有する目的言語文を構文解析し、目的言語文の１以上の二分木を取得する。但し、構文解析部１４は、外部の装置に１以上の各対訳文が有する目的言語文を送付し、当該外部の装置から目的言語文の１以上の二分木を受信する構成であっても良い。なお、構文解析部１４は、例えば、Berkeley parser（Slav Petrov, Leon Barrett, Romain Thibaux, and Dan Klein. 2006. Learning accurate, compact, and interpretable tree annotation, In Proceedings of COLING-ACL 2006.pages 433-440,Sydney, Australia, July. Association for Computational Linguistics.）等の構文解析器により実現され得る。なお、目的言語部分構造は、目的言語文を構成する２以上の要素の順序を示し、かつフレーズラベルを有する親ノードと当該親ノードの子ノードであり目的言語のフレーズラベルまたは原言語ＰＯＳタグまたは原言語の要素を有する２つの子ノードとを含む。

　また、目的言語文の二分木は、目的言語文を構文解析して得られる句構造文法に基づく構文木で、分岐が最大で２である木構造である。句構造文法に基づく構文木は、句の範囲を示すサブツリーとその句ラベル（フレーズラベル）からなる。

　目的言語文の二分木は、１以上の目的言語部分構造を有する。目的言語部分構造は、親ノードと当該親ノードの２つの子ノードとを含む。ここでの親ノードは、フレーズラベルを有する。子ノードは、フレーズラベルまたは目的言語の要素を有する。なお、目的言語の要素は、品詞を示す情報であるＰＯＳタグが対応付いていても良い。

　原言語要素取得部１５は、目的言語文が有する目的言語の１以上の各要素に対応する原言語の１以上の要素を、要素対格納部１２から取得する。原言語要素取得部１５は、目的言語文に対応する原言語文を構成する１以上の要素であり、目的言語文の二分木が有する１以上の目的言語部分構造の終端の子ノードである目的言語の要素に対応する原言語の１以上の要素を、要素対格納部１２の１以上の要素対から取得する。

　原言語部分構造取得部１６は、１以上の原言語部分構造を取得する。具体的には、原言語部分構造取得部１６は、目的言語文の二分木が有する１以上の目的言語部分構造が示す構造を、原言語文を構成する原言語の１以上の要素に適用し、１以上の原言語部分構造を取得する。原言語部分構造取得部１６が取得した原言語部分構造は、原言語文を構成する２以上の要素の順序を示す情報である。また、この原言語部分構造は、親ノードと２つの子ノードとを含む。この親ノードはフレーズラベルを有する。また、子ノードはフレーズラベルまたは原言語の要素を有する。なお、原言語部分構造は、原言語文を構成する２以上の要素の順序を示し、フレーズラベルを有する親ノードと当該親ノードの子ノードでありフレーズラベルまたは原言語のＰＯＳタグを有する２つの子ノードとを含む。

　さらに具体的には、原言語部分構造取得部１６は、要素対格納部１２の１以上の要素対を用いて、目的言語文の二分木が有する１以上の各目的言語部分構造のスパンに対応するスパンを、原言語部分構造ごとに決定する。ここでスパンとは２つの単語位置の範囲を示す。そして、原言語部分構造取得部１６は、各スパンに対応する各原言語部分構造の親ノードのフレーズラベルとして、対応する目的言語部分構造の親ノードのフレーズラベルを書き込む。なお、原言語部分構造のスパンは、対応する目的言語部分構造の中の最も左の要素に対応する位置から、対応する目的言語部分構造の中の最も右の要素に対応する位置までのスパンである。

　なお、原言語部分構造取得部１６は、完全な構造を有する原言語部分構造を取得できない場合がある。不完全な構造を有する原言語部分構造とは、例えば、スパンが不明または不明瞭である原言語部分構造、フレーズラベルを決定できなかった親ノードを含む原言語部分構造等である。スパンが不明または不明瞭である場合は、例えば、目的言語文を構成する要素と対応付かない原言語文の要素が存在する場合、コンフリクトしてスパンを保持しなかった場合等である。また、目的言語文より原言語文の方が、単語数が多い場合にも、通常、不明箇所が発生する。

　要素対格納部１２の１以上の要素対を用いて、目的言語文を構成する要素と対応付かない原言語文の要素が存在した場合、原言語部分構造取得部１６は、当該対応付かない要素が隣接するスパンに含まれるように、統計モデル格納部１３の統計モデルを用いてスパンを決定する。そして、原言語部分構造取得部１６は、対応付かない要素を含むこととなったスパンに対応する原言語部分構造の親ノードのフレーズラベルを、統計モデル格納部１３の統計モデルを用いて決定する。

　なお、原言語部分構造取得部１６は、通常、原言語部分構造の間でコンフリクトが生じない場合のみ、原言語部分構造のスパンを保持する。つまり、原言語部分構造取得部１６は、通常、コンフリクトするスパンは保持しない。ここで、コンフリクトとは、２つ以上の原言語のスパンが相互に一部だけ重複する状態を言う。つまり、コンフリクトとは、いわゆる，ネストではなく，クロスする状態のことである。但し、目的言語文を構成する要素と対応付かない原言語文の要素部分は，コンフリクトが生じないように曖昧性を解消できるため、コンフリクトは生じていないとして扱う。

　また、原言語部分構造取得部１６は、原言語部分構造のスパンがあいまいである場合、最も緩い制約を各導出木に適用する。最も緩い制約を適用するとは、制約の曖昧性により，制約の取り方によってコンフリクトする場合としない場合がある場合に，コンフリクトしない制約の方を常に適用することである。

　導出木のスパンのサブツリーのフレーズラベルが存在する場合、原言語部分構造取得部１６は、当該フレーズラベルを抽出する。かかる抽出に、例えば、「sentence-level blocked Gibbs sampler（Trevor Cohn, Phil Blunsom, and Sharon Goldwater. 2010. Inducing Tree-Substitution Grammars. Journal of Machine Learning Research, 11:3053-3096.参照）」を用いる。本サンプラー（sampler）は、各文に対して、以下の２つのステップを行う。（１）ボトムアップで内部確率を計算する。（２）トップダウンでツリーをサンプルする。

　ＰＹモデルの分布が構成された後、例えば、原言語部分構造取得部１６は、確率の情報を含むＣＦＧおよびＣＹＫアルゴリズム（Daniel H. Younger (1967). Recognition and parsing of context-free languages in time n3. Information and Control 10(2): 189-208.参照）を用いて、最も良い１以上の原言語部分構造を取得する。なお、ＣＹＫアルゴリズムは、原言語部分構造のスパンとフレーズラベルの制約を満たす構文構造の中から最尤の構文構造を探索している。この制約は、確率の情報を含むＣＦＧを構成するための使用された制約と同じである。

　原言語部分構造取得部１６を構成する原言語部分構造取得手段１６１は、１以上の原言語部分構造を取得する。なお、原言語部分構造取得手段１６１は、完全な原言語部分構造を取得できない場合がある。

　部分構造補完手段１６２は、原言語部分構造取得手段１６１が取得した１以上の原言語部分構造のうち、不完全な原言語部分構造が存在する場合、当該原言語部分構造に対して、統計モデル格納部１３の統計モデルを適用し、完全な原言語部分構造を取得する。なお、不完全な原言語部分構造とは、上述した通りである。

　原言語部分構造取得手段１６１がフレーズラベルを決定できなかった親ノードを含む原言語部分構造を取得した場合、部分構造補完手段１６２は、当該原言語部分構造に対して、統計モデルを適用し、原言語部分構造の親ノードのフレーズラベルを決定する。なお、フレーズラベルの決定とは、当該原言語部分構造の親ノードが有するフレーズラベルとして、決定したフレーズラベルを書き込むことでも良い。また、ここでの統計モデルとは、通常、ＣＦＧルールの統計モデルである。

　並替部１７は、原言語文を構成する２以上の要素の順序を示す１以上の原言語部分構造を用いて、原言語文を構成する２以上の要素の順序を並び替える。そして、並替部１７は、並び替えた結果である原言語部分構造を、１以上取得する。また、並替部１７は、通常、目的言語文の要素の順序に対して予め決められた条件を満たすほど近い順序になるように、原言語文を構成する２以上の要素の順序を並び替える。ここで、近い順序とは、目的言語文の要素の順序と原言語文の要素の順序とが近いことである。

　なお、並替部１７は、例えば、並び替え処理後の原言語部分構造と目的言語部分構造との間の「Ｋｅｎｄａｌｌ　τ」が最大になるように、原言語部分構造の兄弟ノードを並び替えたり、並び替えなかったりする。ここで、「Ｋｅｎｄａｌｌ　τ」とは、順位相関係数の１種である。

　ラベル付与部１８は、並び替えラベルを、１以上の原言語部分構造に付与し、１以上のラベル付き原言語部分構造を取得する。ラベル付与部１８は、通常、並替部１７が並び替えた１以上の原言語部分構造に対して、並び替え用のラベルを付与し、１以上のラベル付き原言語部分構造を取得する。

　ラベル付与部１８は、例えば、第一種の原言語部分構造のみ、並び替えラベルを付加する。この並び替えラベルは、並び替えることを示すラベルである。また、ラベル付与部１８は、例えば、第二種の原言語部分構造のみ、並び替えラベルを付加する。この並び替えラベルは、並び替えないことを示すラベルである。また、ラベル付与部１８は、例えば、第一種の原言語部分構造に並び替えることを示す並び替えラベル（例えば、「_SW」）を付加し、第二種の原言語部分構造に並び替えないことを示す並び替えラベル（例えば、「_ST」）を付加しても良い。
　モデル構築部１９は、ラベル付与部１８が取得した１以上のラベル付き原言語部分構造を用いて、１以上の構文解析モデル（例えば、ＩＴＧパージングモデル）を構築する。モデル構築部１９は、例えば、berkeley parserのモデル学習機能により実現され得る。

　蓄積部２０は、モデル構築部１９が取得した１以上の構文解析モデルを蓄積する。蓄積部２０は、通常、１以上の構文解析モデルを記録媒体１０に蓄積する。

　記録媒体１０、対訳コーパス１１、要素対格納部１２、および統計モデル格納部１３は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

　対訳コーパス１１等に対訳文等が記憶される過程は問わない。例えば、記録媒体を介して対訳文等が対訳コーパス１１等で記憶されるようになってもよく、通信回線等を介して送信された対訳文等が対訳コーパス１１等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された対訳文等が対訳コーパス１１等で記憶されるようになってもよい。

　構文解析部１４、原言語要素取得部１５、原言語部分構造取得部１６、並替部１７、ラベル付与部１８、モデル構築部１９、蓄積部２０、原言語部分構造取得手段１６１、および部分構造補完手段１６２は、通常、ＭＰＵやメモリ等から実現され得る。構文解析部１４等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

　次に、学習装置１の動作について、図２、図３のフローチャートを用いて説明する。

　（ステップＳ２０１）構文解析部１４は、カウンタｉに１を代入する。

　（ステップＳ２０２）構文解析部１４は、対訳コーパス１１にｉ番目の対訳文が存在するか否かを判断する。ｉ番目の対訳文が存在すればステップＳ２０３に行き、ｉ番目の対訳文が存在しなければ処理を終了する。

　（ステップＳ２０３）構文解析部１４は、ｉ番目の対訳文が有するｉ番目の目的言語文を対訳コーパス１１から読み出す。

　（ステップＳ２０４）構文解析部１４は、ステップＳ２０３で読み出した目的言語文を構文解析する。そして、構文解析部１４は、ｉ番目の目的言語文に対応する目的言語の二分木を取得する。なお、目的言語の二分木は、１以上の目的言語部分構造を有する。

　（ステップＳ２０５）原言語要素取得部１５は、ｉ番目の対訳文が有するｉ番目の原言語文を対訳コーパス１１から読み出す。

　（ステップＳ２０６）原言語要素取得部１５は、カウンタｊに１を代入する。

　（ステップＳ２０７）原言語要素取得部１５は、ステップＳ２０４で取得された目的言語の二分木の中に、ｊ番目の終端の子ノードが存在するか否かを判断する。ｊ番目の終端の子ノードが存在すればステップＳ２０８に行き、ｊ番目の終端の子ノードが存在しなければステップＳ２１０に行く。なお、終端の子ノードは、目的言語の単語等の要素である。

　（ステップＳ２０８）原言語要素取得部１５は、ｊ番目の終端の子ノード（目的言語の要素）に対応する原言語の単語等の要素であり、ｉ番目の原言語文に含まれる要素を要素対格納部１２から取得する。

　（ステップＳ２０９）原言語要素取得部１５は、カウンタｊを１、インクリメントし、ステップＳ２０７に戻る。

　（ステップＳ２１０）原言語部分構造取得部１６を構成する原言語部分構造取得手段１６１は、カウンタｊに１を代入する。

　（ステップＳ２１１）原言語部分構造取得手段１６１は、ステップＳ２０４で取得された目的言語の二分木の中に、ｊ番目の目的言語部分構造が存在するか否かを判断する。ｊ番目の目的言語部分構造が存在すればステップＳ２１２に行き、ｊ番目の目的言語部分構造が存在しなければステップＳ２１４に行く。

　（ステップＳ２１２）原言語部分構造取得手段１６１は、ｊ番目の目的言語部分構造に対応する原言語部分構造を構成する。

　（ステップＳ２１３）原言語部分構造取得手段１６１は、カウンタｊを１、インクリメントし、ステップＳ２１１に戻る。

　（ステップＳ２１４）部分構造補完手段１６２は、カウンタｊに１を代入する。

　（ステップＳ２１５）部分構造補完手段１６２は、ｊ番目の原言語部分構造が存在するか否かを判断する。ｊ番目の原言語部分構造が存在すればステップＳ２１６に行き、ｊ番目の原言語部分構造が存在しなければステップＳ２１９に行く。

　（ステップＳ２１６）部分構造補完手段１６２は、ｊ番目の原言語部分構造が不完全な原言語部分構造であるか否かを判断する。不完全な原言語部分構造であればステップＳ２１７に行き、不完全な原言語部分構造でなければステップＳ２１８に行く。

　（ステップＳ２１７）部分構造補完手段１６２は、ｊ番目の原言語部分構造を、統計モデルを用いて、完全な原言語部分構造に変更する。

　（ステップＳ２１８）部分構造補完手段１６２は、カウンタｊを１、インクリメントし、ステップＳ２１５に戻る。

　（ステップＳ２１９）並替部１７は、カウンタｊに１を代入する。

　（ステップＳ２２０）並替部１７は、ｊ番目の原言語部分構造が存在するか否かを判断する。ｊ番目の原言語部分構造が存在すればステップＳ２２１に行き、ｊ番目の原言語部分構造が存在しなければステップＳ２２４に行く。

　（ステップＳ２２１）並替部１７は、ｊ番目の原言語部分構造が、並び替えが必要な原言語部分構造であるか否かを判断する。並び替えが必要であると判断した場合はステップＳ２２２に行き、並び替えが必要でないと判断した場合はステップＳ２２３に行く。

　（ステップＳ２２２）並替部１７は、ｊ番目の原言語部分構造が有する兄弟ノードを並び替える。

　（ステップＳ２２３）並替部１７は、カウンタｊを１、インクリメントし、ステップＳ２２０に戻る。

　（ステップＳ２２４）ラベル付与部１８は、カウンタｊに１を代入する。

　（ステップＳ２２５）ラベル付与部１８は、ｊ番目の原言語部分構造が存在するか否かを判断する。ｊ番目の原言語部分構造が存在すればステップＳ２２６に行き、ｊ番目の原言語部分構造が存在しなければステップＳ２３０に行く。

　（ステップＳ２２６）ラベル付与部１８は、ｊ番目の原言語部分構造が、並び替えが発生したか否かを判断する。並び替えが発生していればステップＳ２２７に行き、並び替えが発生していなければステップＳ２２８に行く。

　（ステップＳ２２７）ラベル付与部１８は、並び替えることを示すラベル（例えば、「_SW」）を、ｊ番目の原言語部分構造に付加する。

　（ステップＳ２２８）ラベル付与部１８は、並び替えないことを示すラベル（例えば、「_ST」）を、ｊ番目の原言語部分構造に付加する。

　（ステップＳ２２９）ラベル付与部１８は、カウンタｊを１、インクリメントし、ステップＳ２２５に戻る。

　（ステップＳ２３０）モデル構築部１９は、ラベル付与部１８が取得した１以上のラベル付き原言語部分構造を用いて、１以上の構文解析モデルを構築する。そして、蓄積部２０は、モデル構築部１９が取得した１以上の構文解析モデルを記録媒体１０に蓄積する。

　（ステップＳ２３１）構文解析部１４は、カウンタｉを１、インクリメントし、ステップＳ２０２に戻る。

　なお、本フローチャートにおける各ステップの順序等は例示であることは言うまでもない。

　また、ラベル付与部１８は、並び替えることを示すラベル（例えば、「_SW」）、または並び替えないことを示すラベル（例えば、「_ST」）を原言語部分構造に付加した。しかし、ラベル付与部１８は、並び替えラベルを一部の原言語部分構造に付加しても良い。並び替えラベルを付加された一部の原言語部分構造でも、ある原言語部分構造が、並び替え対象の原言語部分構造か否かを区別できる。

　さらに、図２、図３のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

　以下、本実施の形態における学習装置１の具体的な動作について説明する。

　今、例えば、原言語が日本語で、目的言語が英語である、とする。そして、対訳コーパス１１は、「日本語文：彼は昨日新刊の本を買った，英語文：he bought new books yesterday」が格納している、とする。

　また、要素対格納部１２は、日本語の単語と英語の単語とを有する多数の要素対を含む日英単語辞書のデータを格納している、とする。要素対は、例えば、（彼，he）、（昨日，yesterday）等である。

　さらに、統計モデル格納部１３は、上述したＣＦＧルールの統計モデルを格納している、とする。

　かかる状況において、学習装置１は以下のように動作する。

　まず、学習装置１の構文解析部１４は、対訳コーパス１１の目的言語文「he bought new books yesterday」を読み出す。

　次に、構文解析部１４は、読み出した目的言語文を構文解析する。そして、構文解析部１４は、目的言語文に対応する目的言語の二分木を取得する。この二分木は、図４である。この二分木は、親ノード「S」および子ノード「he」「VP」を有する目的言語部分構造、親ノード「VP」および子ノード「VP」「yesterday」を有する目的言語部分構造、親ノード「VP」および子ノード「bought」「NP」を有する目的言語部分構造、親ノード「NP」および子ノード「new」「books」を有する目的言語部分構造を含む。なお、構文解析部１４は、例えば、Berkeley parserである。

　次に、原言語要素取得部１５は、原言語文「日本語文：彼は昨日新刊の本を買った」を対訳コーパス１１から読み出す。

　次に、原言語要素取得部１５は、目的言語の二分木の中の終端の子ノード（目的言語の単語）に対応する原言語の単語であり、原言語文に含まれる単語を、要素対格納部１２を用いて取得する。つまり、原言語要素取得部１５は、図５に示すように、「he」に対応付けて「彼」を取得し、「bought」に対応付けて「買った」を取得し、「new」に対応付けて「新刊」を取得し、「books」に対応付けて「本」を取得し、「yesterday」に対応付けて「昨日」を取得する。

　次に、原言語部分構造取得手段１６１は、１以上の各目的言語部分構造が示す構造を、原言語文を構成する原言語の１以上の要素に適用し、１以上の原言語部分構造を取得する。かかる１以上の原言語部分構造の概念を図６に示す。

　次に、部分構造補完手段１６２は、不完全な原言語部分構造に対して、統計モデルを用いて、完全な原言語部分構造に変更する。部分構造補完手段１６２は、例えば、目的言語の単語と対応付いていない「は」を、隣接のスパン（「彼」のスパン）に含ませる。そして、部分構造補完手段１６２は、子ノード「彼」と子ノード「は」に対応する親ノードのフレーズラベル「NP」を、統計モデルを用いて取得する。そして、図７に示す原言語部分構造（部分木）を得る。

　また、部分構造補完手段１６２は、例えば、目的言語の単語と対応付いていない「の」を、隣接のスパン（「新刊」のスパン）に含ませる。そして、部分構造補完手段１６２は、子ノード「新刊」と子ノード「の」に対応する親ノードのフレーズラベル「PP」を、統計モデルを用いて取得する。

　さらに、部分構造補完手段１６２は、例えば、目的言語の単語と対応付いていない「を」を、隣接のスパン（「新刊の本」のスパン）に含ませる。そして、部分構造補完手段１６２は、「新刊の本」に対応する親ノード「NP」とノード「を」を子ノードとする親ノードのフレーズラベル「NP」を、統計モデルを用いて取得する。

　以上の処理により、原言語部分構造取得部１６は、図８に示す１以上の原言語部分構造を有する二分木を得る。この二分木は、親ノード「S」および子ノード「NP」「VP」を有する原言語部分構造、親ノード「NP」および子ノード「彼」「は」を有する原言語部分構造、親ノード「VP」および子ノード「昨日」「VP」を有する原言語部分構造、親ノード「VP」および子ノード「NP」「VP」を有する原言語部分構造、親ノード「NP」および子ノード「NP」「を」を有する原言語部分構造、親ノード「NP」および子ノード「PP」「本」を有する原言語部分構造、親ノード「PP」および子ノード「新刊」「の」を有する原言語部分構造、親ノード「VP」および子ノード「買っ」「た」を有する原言語部分構造を含む。

　次に、並替部１７は、１以上の各原言語部分構造に対して、目的言語の語順に近くなるように、兄弟ノードの並び替えが必要か否かを検査する。ここで、「昨日」と「新刊の本を買った」とをスパンとする原言語部分構造の並び替えが必要であると、並替部１７は判断し、並び替える。また、「新刊の本を」と「買った」とをスパンとする原言語部分構造の並び替えが必要であると、並替部１７は判断し、並び替える。そして、並替部１７は、図９に示す原言語部分構造を有する二分木を得る。ここでの二分木は、並び替えられた原言語部分構造が有する親ノードには「－」（８１，８２）が表現されている。

　次に、ラベル付与部１８は、１以上の各原言語部分構造に対して、並び替えが発生したか否かを判断する。そして、ラベル付与部１８は、並び替えが発生した原言語部分構造に対して、並び替えることを示すラベル（ここでは「＿ＳＷ」）を付加する。また、ラベル付与部１８は、並び替えが発生していない原言語部分構造に対して、並び替えないことを示すラベル（「＿ＳＴ」）を付加する。そして、ラベル付与部１８は、図１０に示す１以上のラベル付き原言語部分構造を得る。図１０に含まれるラベル付き原言語部分構造は、親ノード「S_ST」および子ノード「NP_ST」「VP_SW」を有するラベル付き原言語部分構造、親ノード「NP_ST」および子ノード「彼」「は」を有するラベル付き原言語部分構造、親ノード「VP_SW」および子ノード「昨日」「VP_SW」を有するラベル付き原言語部分構造、親ノード「VP_SW」および子ノード「NP_ST」「VP_ST」を有するラベル付き原言語部分構造、親ノード「NP_ST」および子ノード「NP_ST」「を」を有するラベル付き原言語部分構造、親ノード「NP_ST」および子ノード「PP_ST」「本」を有するラベル付き原言語部分構造、親ノード「PP_ST」および子ノード「新刊」「の」を有するラベル付き原言語部分構造、親ノード「VP_ST」および子ノード「買っ」「た」を有するラベル付き原言語部分構造を含む。

　次に、蓄積部２０は、ラベル付与部１８が取得したラベル付き原言語部分構造を有する原言語文の二分木（図１０参照）を蓄積する。

　以上の処理を、対訳コーパス１１のすべての対訳文に対して実行する。そして、学習装置１は、プレオーダリングモデルを学習できる。

　以上、本実施の形態によれば、精度の高い翻訳が可能となるプレオーダリングモデルを学習できる。

　また、本実施の形態によれば、目的言語文の要素の順序に対して予め決められた条件を満たすほど近い順序になるように、原言語文を構成する２以上の要素の順序を並び替えることにより、より精度の高い翻訳が可能となるプレオーダリングモデルを学習できる。

　なお、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ－ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における学習装置１を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータがアクセス可能な記録媒体は、原言語文と当該原言語文の翻訳結果である目的言語文とを有する１以上の対訳文を格納し得る対訳コーパスと、原言語の要素と目的言語の要素との対である１以上の要素対を格納し得る要素対格納部とを具備し、コンピュータを、前記１以上の各対訳文が有する目的言語文を構文解析した結果であり、目的言語文を構成する２以上の要素の順序を示し、かつフレーズラベルを有する親ノードと当該親ノードの子ノードであり目的言語のフレーズラベルまたは原言語ＰＯＳタグまたは原言語の要素を有する２つの子ノードとを含む１以上の目的言語部分構造を有する目的言語文の二分木を取得する構文解析部と、前記目的言語文に対応する原言語文を構成する１以上の要素であり、前記目的言語文の二分木が有する１以上の目的言語部分構造の終端の子ノードである目的言語の要素に対応する原言語の１以上の要素を、前記要素対格納部の１以上の要素対から取得する原言語要素取得部と、前記目的言語文の二分木が有する１以上の目的言語部分構造が示す構造を、前記原言語文を構成する原言語の１以上の要素に適用し、前記原言語文を構成する２以上の要素の順序を示し、フレーズラベルを有する親ノードと当該親ノードの子ノードでありフレーズラベルまたは原言語のＰＯＳタグを有する２つの子ノードとを含む１以上の原言語部分構造を取得する原言語部分構造取得部と、目的言語部分構造に含まれる２つの子ノードの順序と対応する原言語部分構造に含まれる２つの子ノードの順序とが異なる原言語部分構造と、目的言語部分構造に含まれる２つの子ノードの順序と対応する原言語部分構造に含まれる２つの子ノードの順序とが同じ原言語部分構造とを区別可能なラベルである並び替えラベルを、前記１以上の原言語部分構造に付与し、１以上のラベル付き原言語部分構造を取得するラベル付与部と、前記１以上のラベル付き原言語部分構造を用いて、ラベル付き原言語部分構造の出現し易さを示す確率情報を有する１以上の構文解析モデルを構築するモデル構築部と、モデル構築部が構築した１以上の構文解析モデルを蓄積する蓄積部として機能させるためのプログラムである。

　上記プログラムにおいて、コンピュータを、前記原言語文を構成する２以上の要素の順序を示す前記１以上の原言語部分構造を用いて、前記目的言語文の要素の順序に対して予め決められた条件を満たすほど近い順序になるように、前記原言語文を構成する２以上の要素の順序を並び替えた１以上の原言語部分構造を取得する並替部としてさらに機能させ、前記ラベル付与部は、前記並替部が並び替えた１以上の原言語部分構造に対して、前記並び替え用のラベルを付与するものとして、コンピュータを機能させることは好適である。

　上記プログラムにおいて、記録媒体は、フレーズラベルを有する親ノードと当該親ノードの子ノードでありフレーズラベルまたは原言語のＰＯＳタグを有する２つの子ノードとを含むＣＦＧルールの統計モデルを格納し得る統計モデル格納部をさらに具備し、前記原言語部分構造取得部は、前記目的言語文の二分木が有する１以上の目的言語部分構造が示す構造を、前記原言語文を構成する原言語の１以上の要素に適用し、原言語文を構成する２以上の要素の順序を示し、フレーズラベルを有する親ノードと当該親ノードの子ノードでありフレーズラベルまたは原言語の要素を有する２つの子ノードとを有する１以上の原言語部分構造を取得する原言語部分構造取得手段と、前記原言語部分構造取得手段が取得した１以上の原言語部分構造のうち、不完全な原言語部分構造が存在する場合、当該原言語部分構造に対して、前記統計モデルを適用し、完全な原言語部分構造を取得する部分構造補完手段とを具備するものとして、コンピュータを機能させることは好適である。

　（本発明の実施の形態２）
　本実施の形態において、実施の形態1で説明した学習装置１により学習したプレオーダリングモデルを利用して機械翻訳を行う翻訳装置について説明する。

　また、本実施の形態において、原言語の構文解析器を利用する翻訳装置について説明する。

　図１１は、本実施の形態における翻訳装置２のブロック図である。翻訳装置２は、二分木格納部２１、要素対格納部２２、受付部２３、形態素解析部２４、ラベル付き原言語部分構造取得部２５、翻訳並替部２６、検索部２７、および出力部２８を備える。

　二分木格納部２１は、１以上の構文解析モデルを格納している。構文解析モデルは、１以上のラベル付き原言語部分構造を有する。また、かかる１以上の構文解析モデルは、実施の形態１で説明した学習装置１が蓄積した１以上の構文解析モデルである。二分木格納部２１は、記録媒体１０と同じでも良い。

　要素対格納部２２は、原言語の要素と目的言語の要素との対である１または２以上の要素対を格納し得る。

　受付部２３は、原言語文を受け付ける。原言語文は翻訳対象の原言語の文である。また、ここで、受け付けとは、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、音声認識結果である原言語文の受け付け、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である。原言語文の入力手段は、キーボードやマウスやタッチパネルやメニュー画面によるもの等、何でも良い。受付部２３は、キーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。

　形態素解析部２４は、受付部２３が受け付けた原言語文を形態素解析し、ＰＯＳタグに対応付いている２以上の要素を取得する。なお、ＰＯＳタグは、品詞を示す情報である。
形態素解析部２４は、例えば、Chasen（ＵＲＬ：http://chasen.aist-nara.ac.jp/index.php?cmd=read&page=ProjectPractice2005&word=%A3%C3%A3%E8%A3%E1%A3%F3%A3%E5%A3%EE参照）やMeCab（ＵＲＬ：http://mecab.sourceforge.net/参照）等である。なお、形態素解析技術は公知技術であるので、詳細な説明は省略する。

　ラベル付き原言語部分構造取得部２５は、１以上の構文解析モデルを用いて、受付部２３が受け付けた原言語文が有する２以上の各要素から１以上のラベル付き原言語部分構造を取得する。

　通常、ラベル付き原言語部分構造取得部２５は、ＩＴＧパージングモデルを用いて、既存の構文解析のアルゴリズム（例えば，Berkeley parser（Improved inference for unlexicalized parsing. In NAACL-HLT, pages 404-411, Rochester, New York, April. Association for Computational Linguistics.）で原言語文を構文解析し，原言語構文構造を取得する。なお、ＩＴＧパージングモデルは、１以上の構文解析モデルを用いて、形態素解析部２４が取得したＰＯＳタグと単語の並びから、学習して構築される。

　翻訳並替部２６は、ラベル付き原言語部分構造取得部２５が取得した１以上のラベル付き原言語部分構造が有する並び替えラベルが、目的言語部分構造に含まれる２つの子ノードの順序と原言語部分構造に含まれる２つの子ノードの順序とが異なることを示す並び替えラベルである場合、当該並び替えラベルに対応するラベル付き原言語部分構造が有する２つの子ノードの順序を並び替える処理を行い、並び替えられた後の原言語の２以上の要素を取得する。翻訳並替部２６は、すべてのラベル付き原言語部分構造が有する２つの子ノードの順序を並び替えるわけではないことは言うまでもない。つまり、ラベルが並び替えないことを示すラベルである場合、翻訳並替部２６は、当該ラベルに対応する原言語部分構造が有する２つの子ノードの順序を並び替えない。上記の並び替えられた後の原言語の２以上の要素は、並び替えられていない要素を含んでも良い。また、上記の原言語の２以上の要素とは、二分木の終端のノードに対応する要素である。

　検索部２７は、翻訳並替部が取得した原言語の２以上の各要素に対応する目的言語の２以上の要素を、要素対格納部２２から取得する。ここで、目的言語の２以上の要素とは、翻訳並替部２６により並び替えられた後の原言語文を構成する２以上の要素の順序に対応する順序で並べられている目的言語の２以上の要素である。

　出力部２８は、検索部２７が取得した２以上の要素からなる目的言語文を出力する。ここで、出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、音声出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。

　二分木格納部２１、要素対格納部２２は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。二分木格納部２１等に二分木等が記憶される過程は問わない。例えば、記録媒体を介して二分木等が二分木格納部２１等で記憶されるようになってもよく、通信回線等を介して送信された二分木等が二分木格納部２１等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された二分木等が二分木格納部２１等で記憶されるようになってもよい。

　形態素解析部２４、ラベル付き原言語部分構造取得部２５、翻訳並替部２６、検索部２７は、通常、ＭＰＵやメモリ等から実現され得る。形態素解析部２４等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

　出力部２８は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部２８は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

　次に、翻訳装置２の動作について、図１２のフローチャートを用いて説明する。

　（ステップＳ１２０１）受付部２３は、原言語文を受け付けたか否かを判断する。原言語文を受け付ければステップＳ１２０２に行き、原言語文を受け付けなければステップＳ１２０１に戻る。

　（ステップＳ１２０２）形態素解析部２４は、受付部２３が受け付けた原言語文を形態素解析し、ＰＯＳタグに対応付いている２以上の要素を取得する。

　（ステップＳ１２０３）ラベル付き原言語部分構造取得部２５は、原言語文の１以上の構文解析モデルを用いて、形態素解析部２４が取得したＰＯＳタグに対応付いている２以上の要素から１以上のラベル付き原言語部分構造を取得する。

　（ステップＳ１２０４）翻訳並替部２６は、カウンタｉに１を代入する。

　（ステップＳ１２０５）翻訳並替部２６は、ｉ番目のラベル付き原言語部分構造が存在するか否かを判断する。ｉ番目のラベル付き原言語部分構造が存在すればステップＳ１２０６に行き、ｉ番目のラベル付き原言語部分構造が存在しなければステップＳ１２０９に行く。

　（ステップＳ１２０６）翻訳並替部２６は、ｉ番目のラベル付き原言語部分構造が有する並び替えラベルが、兄弟ノードを並び替えすることを示すラベルであるか否かを判断する。並び替えすることを示すラベルである場合はステップＳ１２０７に行き、並び替えすることを示すラベルでない場合はステップＳ１２０８に行く。

　（ステップＳ１２０７）翻訳並替部２６は、ｉ番目のラベル付き原言語部分構造が有する兄弟ノードを並び替える。

　（ステップＳ１２０８）翻訳並替部２６は、カウンタｉをインクリメントし、ステップＳ１２０５に戻る。

　（ステップＳ１２０９）カウンタｉに１を代入する。

　（ステップＳ１２１０）検索部２７は、翻訳並替部２６による処理が完了した１以上のラベル付き原言語部分構造により構成される二分木の、ｉ番目の終端のノード（ｉ番目の要素）が存在するか否かを判断する。ｉ番目の要素が存在する場合はステップＳ１２１１に行き、ｉ番目の要素が存在しない場合はステップＳ１２１３に行く。

　（ステップＳ１２１１）検索部２７は、ｉ番目の要素に対応する目的言語の要素を、要素対格納部２２から取得する。なお、ここでの目的言語の要素の取得は、文を構成する要素の順番に行われる、とする。

　（ステップＳ１２１２）検索部２７は、カウンタｉをインクリメントし、ステップＳ１２１０に戻る。

　（ステップＳ１２１３）出力部２８は、ステップＳ１２１１で検索部２７が取得した２以上の要素からなる目的言語文を出力し、ステップＳ１２０１に戻る。なお、目的言語文は、検索部２７が取得した順序で要素が並んでいる文である。

　なお、図１２のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

　以下、本実施の形態における翻訳装置２の具体的な動作について説明する。

　今、翻訳装置２は日英翻訳を行う、とする。また、翻訳装置２は、例えば、統計翻訳を行う機械翻訳装置である、とする。なお、翻訳装置２は、統計翻訳を行うことが好適であるが、他の方法による機械翻訳を行う装置でも良い。

　また、二分木格納部２１は、図１０に示すような二分木を多数格納している、とする。なお、この二分木は、１以上のラベル付き原言語部分構造を有する原言語文の二分木である。

　ここで、ユーザは、翻訳装置２に対して、原言語文「あなたは昨日新刊の本を買った」を入力した、とする。

　次に、形態素解析部２４は、受付部２３が受け付けた原言語文「あなたは昨日新刊の本を買った」を形態素解析し、ＰＯＳタグに対応付いている２以上の要素を取得する。

　次に、ラベル付き原言語部分構造取得部２５は、原言語文の１以上の二分木を用いて、形態素解析部２４が取得したＰＯＳタグに対応付いている２以上の要素から１以上のラベル付き原言語部分構造を取得する。そして、ラベル付き原言語部分構造取得部２５が取得した１以上のラベル付き原言語部分構造を有する二分木は、図１３のような二分木である。

　次に、翻訳並替部２６は、図１３のような二分木が有するラベル付き原言語部分構造のうち、ラベル付き原言語部分構造が有する並び替えラベルが兄弟ノードを並び替えすることを示すラベルであるラベル付き原言語部分構造に対して、その兄弟ノードを入れ替える。そして、図１４の１４１に示すように、二分木の終端の要素の並び（原言語の要素の並び）「あなた　は　買っ　た　新刊　の　本　を　昨日」を得る。

　検索部２７は、図１４の１４１の各要素に対応する目的言語の要素を、要素対格納部２２から取得する。そして、検索部２７は、目的言語文「you bought new books yesterday」（図１４の１４２）を得る。

　次に、出力部２８は、検索部２７が取得した２以上の要素からなる目的言語文「you bought new books yesterday」を出力する。

　以下、本翻訳装置２の実験結果について説明する。
（実験結果）

　本実験において、日英翻訳により、翻訳装置２の性能を評価した。そして、本実験において、NTCIR-9（「Isao Goto, Bin Lu, Ka Po Chow, Eiichiro Sumita, and Benjamin K. Tsou. 2011. Overview of the patent machine translation task at the NTCIR-9 workshop. In Proceedings of NTCIR-9, pages 559-578.」参照）と NTCIR-10（「Isao Goto, Ka Po Chow, Bin Lu, Eiichiro Sumita, and Benjamin K. Tsou. 2013a. Overview of the patent machine translation task at the NTCIR-10 workshop. In Proceedings of NTCIR-10, pages 260-286.」参照）の特許機械翻訳タスクのデータを用いた。NTCIR-9とNTCIR-10における学習データと開発データは同じで、テストデータは異なる。学習データが約３１８万の対話文であり、開発データが約２０００の対訳文であった。そして、テストデータについて、NTCIR-9では２０００文、NTCIR-10では２３００文であった。

　そして、本実験において、学習データの英文を構文解析するためにEnju（「Yusuke Miyao and Jun'ichi Tsujii. 2008. Feature forest models for probabilistic HPSG parsing. In Computational Linguistics, Volume 34, Number 1, pages 81-88.」参照）を使用した。

　また、本実験において、特許文の解析のためのカスタマイゼーション（「Hideki Isozaki, Katsuhito Sudoh, Hajime Tsukada, and Kevin Duh. 2012. HPSG-based preprocessing for English-to-Japanese translation. ACM Transac-tions on Asian Language Information Processing, 11(3):8:1-8:16, September.」参照）を適用した。

　また、日本語の形態素解析器として、MeCabを用いた。また、英語の場合と同様に、日本語において英数字のトークン化を適用した。

　また、翻訳モデルとして、英文が４０ワード以下の長さの対訳文を用いて学習されたものを使用した。その結果、約２０６万の対訳文が翻訳モデルの学習のために使用された。また、本実験において、単語アライメント（上記の要素対格納部１２）を構築するために、GIZA＋＋とgrowdiag-final-and heuristicsを使用した。また、本実験において、単語アライメントのエラーを縮減するために、単語アライメントを行う前に、英語の冠詞（a,an,the）、日本語の助詞（が、を、は）は削除した。本実験において、単語アライメントの後、取り除いた上記の語を元の位置に格納した。

　そして、本実験において、学習データから英語文を用いて学習された５－グラム言語モデルを用いた。

　また、ＳＭＴの重みパラメータは、開発データを用いたMERT（「Franz Josef Och. 2003. Minimum error rate training in statistical machine translation. In Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics, pages 160-167.」参照）によりチューニングされた。具体的には、本実験において、MERTの結果を安定的にするために、開発データのうちの最初の半分を用いたMERTによって、重みパラメータのチューニングを、三度行った。そして、開発データの次の半分を使用したBLEUスコアに基づいて、３つの重みパラメータセットから、最も高いスコアのＳＭＴ重みパラメータセットが選択された。

　本方法（翻訳装置２の方法）は「PROPOSED」とも言うこととする。本方法のプレオーダリングモデルの学習データである原言語のフル二分木構造は、２０万の原言語文から構成された。この２０万の原言語文は次のプロセスにより選択された。まず、原言語の学習文を、目的言語の構文構造から単語アラインメントを介して獲得した原言語のスパンのカバレッジ率に基づいてソートする。次に、上位２０万のユニークな原言語文を選択する。フル二分木構造を構築するために、Gibbs sampler を用いて、２０回、処理を繰り返した。なお、ここでは、カバレッジ率は、「投影スパン数／（文の中の単語数－１）」により算出される。

　また、本方法におけるプレオーダリングモデルの学習のために、Berkeley parserを使用した。また、Ｆ'（原言語文を目的言語文の語順に並び替えた文（例えば、図１４の１４１参照））からＥ（目的言語文）への翻訳のために、フレーズベースのＳＭＴシステム「Moses（「Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi,Brooke Cowan, Wade Shen, Christine Moran,Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, and Evan Herbst. 2007. Moses: Open
source toolkit for statistical machine translation. In Proceedings of the ACL Demo and Poster Sessions,pages 177-180.」参照）」を使用した。この場合、ひずみ（distortion）の閾値を６とした。なお、ひずみの閾値とは、ターゲット言語の文を左から連続的に生成する際に、入力文中において最後に翻訳したフレーズと次に翻訳するフレーズとの相対位置を制限するものであり、「次に翻訳するフレーズの左端の単語位置－最後に翻訳したフレーズの右端の単語位置－１」の絶対値が閾値以下になるように翻訳を制限する際に用いられる閾値である。この値が小さい（例えば６）場合には、翻訳時に長距離の語順並べ替えが行われない。

　本実験において、本方法と以下の５つの方法とを対比した。
（１）単語並び替えモデルを用いたフレーズベースＳＭＴ (PBMT_L)（「Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, and Evan Herbst. 2007. Moses: Open source toolkit for statistical machine translation.」参照）
（２）階層的フレーズベースＳＭＴ(HPBMT) （「David Chiang. 2007. Hierarchical phrase-based translation. Computational Linguistics, 33(2):201-228.」参照）
（３）String-to-tree文法ベース SMT(SBMT) （「Hieu Hoang, Philipp Koehn, and Adam Lopez. 2009.A Unified Framework for Phrase Based, Hierarchical, and Syntax Based Statistical Machine Translation. In Proceedings of IWSLT 2009, pages 152-159.」参照）
（４）ひずみモデルを用いたフレーズベースＳＭＴ(PBMT_D) （「Isao Goto, Masao Utiyama, Eiichiro Sumita, Akihiro Tamura, and Sadao Kurohashi. 2013b. Distortion model considering rich context for statistical machine translation. In Proceedings of the 51th Annual Meeting of the Association for Computational Linguistics, Sofia, Bulgaria, August. Association for Computational Linguistics.」参照）
（５）構文解析器を用いないプレオーダリング方法(LADER) （「Graham Neubig, Taro Watanabe, and Shinsuke Mori. 2012. Inducing a discriminative parser to optimize machine translation reordering. In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pages 843-853, Jeju Island, Korea, July. Association for Computational Linguistics.」参照）

　PBMTL、HPBMT、SBMT、およびLADERに対して、Mosesを使用した。また、PBMT_Dに対して、ひずみモデルを有するMosesデコーダとコンパチブルな内部の標準的なフレーズベースSMTを用いた。
　MSD双方向単語並び替えモデルはすべてのデータを用いて構築され、翻訳モデルの構築のために使用した。なお、MSD双方向単語並び替えモデルについては、Mosesデコーダの説明書を参照のこと。

　PBMT_Dのひずみモデルの学習データのために、翻訳モデルの構築に使用されるデータ中の最後の２０万の原言語文を使用した。

　また、LADERのプレオーダリングシステムのために、lader（「http://www.phontron.com/lader/」参照）実装を使用した。LADERのプレオーダリングモデルの学習データは、本手法のプレオーダリングモデルのための学習データと同じ２０万の原言語文である。日本語のＰＯＳタグはMeCabにより生成されたものである。LADERのプレオーダリングモデルの学習では、繰り返し学習を１００回繰り返した。

　PBMT_Lのひずみ閾値を２０とした。HPBMTとSBMTのための最大チャートスパンの制限はない。最大チャートスパンについては、Mosesデコーダの説明書を参照のこと。また、LADERのひずみ閾値を６とした。デフォルト値は他のシステムで使用されているパラメータとした。

　以上の条件のもと、大文字と小文字とを区別して、BLEU-4（Kishore Papineni, Salim Roukos, ToddWard, and WeiJing Zhu. 2002. Bleu: a Method for Automatic Evaluation of Machine Translation. In Proceedings of ACL 2002, pages 311-318.」参照）とRIBES v1.01（「Hideki Isozaki, Tsutomu Hirao, Kevin Duh, Katsuhito Sudoh, and Hajime Tsukada. 2010. Automatic Evaluation of Translation Quality for Distant Language Pairs. In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, pages 944-952.」参照）とを用いて翻訳品質を評価した。その翻訳品質の評価結果を図１５に示す。

　図１５において、パーサを使用する方法に対してチェックが入っている。また、プレオーダリングの方法に対してチェックが入っている。また、図１５は、NTCIR-9およびNTCIR-10の各データを用いた場合の、各手法におけるRIBESのスコアとBLEUのスコアとを記載している。

　図１５によれば、提案の本手法（翻訳装置２の手法）が、他の方法と比べてベストなスコアを記録し、優れていることが分かる。

　なお、RIBESはグローバルな単語の順序にセンシティブであり、BLEUはローカルな単語の順序にセンシティブである。そして、本実験により、本手法がグローバルおよびローカルな単語の順序に対して効果があることが確認できた。

　本実験において、本手法（PROPOSED）と、パーザを用いずに単語選択と並び替えとを同時に行う他の３つの手法（PBMT_L，HPBMT，PBMT_D）とを比較した。その結果、図１５に示すように、NTCIR-9とNTCIR-10の両方のデータにおいて、かつRIBESとBLEUの両方のスコアにおいて、本手法は他の３つの手法を上回った。これらの結果は、プレオーダリングは、構文解析器を用いずに単語の選択と並び替えを同時に行う手法よりも有効であることを示している。

　次に、本実験において、本手法（PROPOSED）と、目的言語の構文解析器を用いる方法（SBMT）とを比較した。その結果、図１５に示すように、NTCIR-9とNTCIR-10の両方のデータにおいて、かつRIBESとBLEUの両方のスコアにおいて、本手法はSBMTの手法を上回った。これらの結果は、プレオーダリングは、目的言語の構文解析器を用いて、単語の選択と並び替えを同時に行う手法よりも有効であることを示している。

　最後に、本実験において、本手法（PROPOSED）と、構文解析器を用いないプレオーダリングの手法(LADER)とを比較した。その結果、図１５に示すように、NTCIR-9とNTCIR-10の両方のデータにおいて、かつRIBESとBLEUの両方のスコアにおいて、本手法はLADERの手法を上回った。これらの結果は、プレオーダリングのために構文解析器を用いることは、構文解析器を用いないよりも有効であることを示している。

　以上、本実施の形態によれば、目的言語の構文解析器を用いたプレオーダリングによる機械翻訳により、精度の高い翻訳が可能となる。

　なお、本実施の形態における翻訳装置２を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータがアクセス可能な記録媒体は、請求項１から請求項３いずれか記載の学習装置が蓄積した１以上のラベル付き原言語部分構造を有する原言語文の１以上の二分木を格納している二分木格納部と、原言語の要素と目的言語の要素との対である１以上の要素対を格納し得る要素対格納部とを具備し、コンピュータを、原言語文を受け付ける受付部と、前記原言語文の１以上の二分木を用いて、前記受付部が受け付けた原言語文が有する２以上の各要素から１以上のラベル付き原言語部分構造を取得するラベル付き原言語部分構造取得部と、前記１以上のラベル付き原言語部分構造が有する並び替えラベルが、目的言語部分構造に含まれる２つの子ノードの順序と原言語部分構造に含まれる２つの子ノードの順序とが異なることを示す並び替えラベルである場合、当該並び替えラベルに対応するラベル付き原言語部分構造が有する２つの子ノードの順序を並び替える処理を行い、並び替えられた後の原言語の２以上の要素を取得する翻訳並替部と、前記翻訳並替部が取得した原言語の２以上の各要素に対応する目的言語の２以上の要素を、前記要素対格納部から取得する検索部と、前記検索部が取得した２以上の要素からなる目的言語文を出力する出力部として機能させるためのプログラムである。

　上記プログラムにおいて、前記１以上の原言語文の二分木を構成する１以上の各ラベル付き原言語部分構造が有する原言語の要素はＰＯＳタグに対応付いており、コンピュータを、前記受付部が受け付けた原言語文を形態素解析し、ＰＯＳタグに対応付いている２以上の要素を取得する形態素解析部としてさらに機能させ、前記ラベル付き原言語部分構造取得部は、前記１以上の原言語文の二分木を用いて、前記ＰＯＳタグに対応付いている２以上の要素から１以上のラベル付き原言語部分構造を取得するものとして、コンピュータを機能させることは好適である。

　また、図１６は、本発明で述べたプログラムを実行して、上述した種々の実施の形態の学習装置１、または翻訳装置２を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図１６は、このコンピュータシステム３００の概観図であり、図１７は、システム３００のブロック図である。

　図１６において、コンピュータシステム３００は、ＣＤ－ＲＯＭドライブを含むコンピュータ３０１と、キーボード３０２と、マウス３０３と、モニタ３０４とを含む。

　図１７において、コンピュータ３０１は、ＣＤ－ＲＯＭドライブ３０１２に加えて、ＭＰＵ３０１３と、ＭＰＵ３０１３、ＣＤ－ＲＯＭドライブ３０１２に接続されたバス３０１４と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ３０１５と、ＭＰＵ３０１３に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのＲＡＭ３０１６と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク３０１７とを含む。ここでは、図示しないが、コンピュータ３０１は、さらに、ＬＡＮへの接続を提供するネットワークカードを含んでいても良い。

　コンピュータシステム３００に、上述した実施の形態の学習装置等の機能を実行させるプログラムは、ＣＤ－ＲＯＭ３１０１に記憶されて、ＣＤ－ＲＯＭドライブ３０１２に挿入され、さらにハードディスク３０１７に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ３０１に送信され、ハードディスク３０１７に記憶されても良い。プログラムは実行の際にＲＡＭ３０１６にロードされる。プログラムは、ＣＤ－ＲＯＭ３１０１またはネットワークから直接、ロードされても良い。

　プログラムは、コンピュータ３０１に、上述した実施の形態の学習装置等の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム３００がどのように動作するかは周知であり、詳細な説明は省略する。

　また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

　また、上記各実施の形態において、各処理や各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
なお、本願発明は、上記の実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

　更に、前記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組み合わせにより種々の発明が抽出され得る。たとえば、実施形態に示される全構成要件から幾つかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。

　以上のように、本発明にかかる学習装置は精度の高い翻訳が可能となる、という効果を有し、機械翻訳装置等として有用である。

　１　学習装置
　２　翻訳装置
　１０　記録媒体
　１１　対訳コーパス
　１２、２２　要素対格納部
　１３　統計モデル格納部
　１４　構文解析部
　１５　原言語要素取得部
　１６、２５　原言語部分構造取得部
　１７　並替部
　１８　ラベル付与部
　１９　モデル構築部
　２０　蓄積部
　２１　二分木格納部
　２３　受付部
　２４　形態素解析部
　２６　翻訳並替部
　２７　検索部
　２８　出力部
　１６１　原言語部分構造取得手段
　１６２　部分構造補完手段

Claims

原言語文と当該原言語文の翻訳結果である目的言語文とを有する１以上の対訳文を格納し得る対訳コーパスと、
原言語の要素と目的言語の要素との対である１以上の要素対を格納し得る要素対格納部と、
前記１以上の各対訳文が有する目的言語文を構文解析した結果であり、目的言語文を構成する２以上の要素の順序を示し、かつフレーズラベルを有する親ノードと当該親ノードの子ノードであり目的言語のフレーズラベルまたは原言語ＰＯＳタグまたは原言語の要素を有する２つの子ノードとを含む１以上の目的言語部分構造を有する目的言語文の二分木を取得する構文解析部と、
前記目的言語文に対応する原言語文を構成する１以上の要素であり、前記目的言語文の二分木が有する１以上の目的言語部分構造の終端の子ノードである目的言語の要素に対応する原言語の１以上の要素を、前記要素対格納部の１以上の要素対から取得する原言語要素取得部と、
前記目的言語文の二分木が有する１以上の目的言語部分構造が示す構造を、前記原言語文を構成する原言語の１以上の要素に適用し、前記原言語文を構成する２以上の要素の順序を示し、フレーズラベルを有する親ノードと当該親ノードの子ノードでありフレーズラベルまたは原言語のＰＯＳタグを有する２つの子ノードとを含む１以上の原言語部分構造を取得する原言語部分構造取得部と、
目的言語部分構造に含まれる２つの子ノードの順序と対応する原言語部分構造に含まれる２つの子ノードの順序とが異なる原言語部分構造と、目的言語部分構造に含まれる２つの子ノードの順序と対応する原言語部分構造に含まれる２つの子ノードの順序とが同じ原言語部分構造とを区別可能なラベルである並び替えラベルを、前記１以上の原言語部分構造に付与し、１以上のラベル付き原言語部分構造を取得するラベル付与部と、
前記１以上のラベル付き原言語部分構造を用いて、ラベル付き原言語部分構造の出現し易さを示す確率情報を有する１以上の構文解析モデルを構築するモデル構築部と、
前記モデル構築部が構築した１以上の構文解析モデルを蓄積する蓄積部とを具備する学習装置。
請求項１記載の学習装置が蓄積した１以上の構文解析モデルを格納している二分木格納部と、
原言語の要素と目的言語の要素との対である１以上の要素対を格納し得る要素対格納部と、
原言語文を受け付ける受付部と、
前記１以上の構文解析モデルを用いて、前記受付部が受け付けた原言語文が有する２以上の各要素から１以上のラベル付き原言語部分構造を取得するラベル付き原言語部分構造取得部と、
前記１以上のラベル付き原言語部分構造が有する並び替えラベルが、目的言語部分構造に含まれる２つの子ノードの順序と原言語部分構造に含まれる２つの子ノードの順序とが異なることを示す並び替えラベルである場合、当該並び替えラベルに対応するラベル付き原言語部分構造が有する２つの子ノードの順序を並び替える処理を行い、並び替えられた後の原言語の２以上の要素を取得する翻訳並替部と、
前記並び替えられた後の原言語の２以上の各要素に対応する目的言語の２以上の要素を、前記要素対格納部から取得する検索部と、
前記並び替えられた後の原言語の２以上の要素の順序と対応する目的言語の２以上の要素とが、同じ順序に並べられている前記検索部が取得した目的言語の２以上の要素からなる目的言語文を出力する出力部とを具備する翻訳装置。
記録媒体は、
原言語文と当該原言語文の翻訳結果である目的言語文とを有する１以上の対訳文を格納し得る対訳コーパスと、
原言語の要素と目的言語の要素との対である１以上の要素対を格納し得る要素対格納部とを具備し、
構文解析部、原言語要素取得部、原言語部分構造取得部、ラベル付与部、モデル構築部、および蓄積部により実現される学習方法であって、
前記構文解析部が、前記１以上の各対訳文が有する目的言語文を構文解析した結果であり、目的言語文を構成する２以上の要素の順序を示し、かつフレーズラベルを有する親ノードと当該親ノードの子ノードでありフレーズラベルまたは目的言語の要素を有する２つの子ノードとを含む１以上の目的言語部分構造を有する目的言語文の二分木を取得する構文解析ステップと、
前記原言語要素取得部が、前記目的言語文に対応する原言語文を構成する１以上の要素であり、前記目的言語文の二分木が有する１以上の目的言語部分構造の終端の子ノードである目的言語の要素に対応する原言語の１以上の要素を、前記要素対格納部の１以上の要素対から取得する原言語要素取得ステップと、
前記原言語部分構造取得部が、前記目的言語文の二分木が有する１以上の目的言語部分構造が示す構造を、前記原言語文を構成する原言語の１以上の要素に適用し、前記原言語文を構成する２以上の要素の順序を示し、フレーズラベルを有する親ノードと当該親ノードの子ノードでありフレーズラベルまたは原言語の要素を有する２つの子ノードとを含む１以上の原言語部分構造を取得する原言語部分構造取得ステップと、
前記ラベル付与部が、目的言語部分構造に含まれる２つの子ノードの順序と対応する原言語部分構造に含まれる２つの子ノードの順序とが異なる原言語部分構造と、目的言語部分構造に含まれる２つの子ノードの順序と対応する原言語部分構造に含まれる２つの子ノードの順序とが同じ原言語部分構造とを区別可能なラベルである並び替えラベルを、前記１以上の原言語部分構造に付与し、１以上のラベル付き原言語部分構造を取得するラベル付与ステップと、
前記モデル構築部が、前記１以上のラベル付き原言語部分構造を用いて、ラベル付き原言語部分構造の出現し易さを示す確率情報を有する１以上の構文解析モデルを構築するモデル構築ステップと、
前記蓄積部が、前記モデル構築ステップで構築された１以上の構文解析モデル蓄積する蓄積ステップとを具備する学習方法。
記録媒体は、
請求項１記載の学習装置が蓄積した１以上の構文解析モデルを格納している二分木格納部と、
原言語の要素と目的言語の要素との対である１以上の要素対を格納し得る要素対格納部とを具備し、
受付部、ラベル付き原言語部分構造取得部、翻訳並替部、検索部、および出力部により実現される翻訳方法であって、
前記受付部が、原言語文を受け付ける受付ステップと、
前記ラベル付き原言語部分構造取得部が、前記構文解析モデルを用いて、前記受付ステップで受け付けられた原言語文が有する２以上の各要素から１以上のラベル付き原言語部分構造を取得するラベル付き原言語部分構造取得ステップと、
前記翻訳並替部が、前記１以上のラベル付き原言語部分構造が有する並び替えラベルが、目的言語部分構造に含まれる２つの子ノードの順序と原言語部分構造に含まれる２つの子ノードの順序とが異なることを示す並び替えラベルである場合、当該並び替えラベルに対応するラベル付き原言語部分構造が有する２つの子ノードの順序を並び替える処理を行い、並び替えられた後の原言語の２以上の要素を取得する翻訳並替ステップと、
前記検索部が、前記翻訳並替ステップで取得された原言語の２以上の各要素に対応する目的言語の２以上の要素を、前記要素対格納部から取得する検索ステップと、
前記出力部が、前記検索ステップで取得された２以上の要素からなる目的言語文を出力する出力ステップとを具備する翻訳方法。