WO2022264404A1

WO2022264404A1 - 翻訳方法、翻訳プログラム及び情報処理装置

Info

Publication number: WO2022264404A1
Application number: PCT/JP2021/023207
Authority: WO
Inventors: 正弘片岡; 清司大倉; 浩太夏目; 量松村
Original assignee: 富士通株式会社
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2022-12-22
Also published as: JPWO2022264404A1

Abstract

情報処理装置は、翻訳対象の文章に含まれる複数の部分文章の情報及び複数の部分文章の順序と、翻訳対象の文章の翻訳結果となる文章に含まれる複数の部分翻訳文章の情報及び複数の部分翻訳文章の順序との関係を基に学習された翻訳学習モデルを記憶する。情報処理装置は、新たな翻訳対象の第３文章を受け付けると、第３文章に含まれる複数の部分文章の情報を特定する。情報処理装置は、特定した複数の部分文章の情報を順に、翻訳学習モデルに入力することで、特定した複数の部分文章の情報に対応する、複数の部分翻訳文章の情報の順序を制御する。

Description

翻訳方法、翻訳プログラム及び情報処理装置

　本発明は、翻訳方法等に関する。

　従来、第１言語の文章を、第１言語とは異なる第２言語の文章に翻訳する機械翻訳技術の開発がなされており、たとえば、ＮＮ（Neural　Network）を用いた機械翻訳が実用化されつつある。以下の説明では、ＮＮを用いた機械翻訳をニューラル機械翻訳と表記する。

　ニューラル機械翻訳では、第１言語の文章の情報と、第２言語の文章の情報との関係を定義した学習データを用いて機械学習した学習モデルを生成する。ニューラル翻訳では、機械学習した学習モデルに、翻訳対象となる第１言語の文章の情報を入力することで、第２言語の文章の機械翻訳を実行する。

　従来のニューラル機械翻訳は、第１言語と第２言語の各文を構成する主語（Ｓ）や述語（Ｖ）、目的語（Ｏ）の出現順序の違いを、単語の分散ベクトルを用いて、並び替えを解決することで、実用化されている。また、現在では、翻訳精度を向上させるため、第１言語の文章を、文単位（あるいは、項単位）に分割して、文をそれぞれ学習モデルに入力し、文の単位で、第２言語の文章に翻訳する場合がある。たとえば、文章は複数の項を含み、各項はそれぞれ、複数の文を含むものとする。

国際公開第２０１８／００３４５７号特表２０２０－５２８６２５号公報特開２０１９－３５５２号公報特開２０１９－２０４３６２号公報

　しかしながら、上述した従来技術では、言語間で考え方の流れが異なり、理解し易い翻訳文章を生成することが難しいという問題がある。

　たとえば、第１言語の文章を複数の項に分割し、ニューラル機械翻訳によって、第２言語の文章の項をそれぞれ機械翻訳すると、言語間で考え方の流れが異なるために、第２言語の各項の翻訳結果の出現順序が悪く、理解し難い翻訳文章となる場合がある。

　１つの側面では、本発明は、理解し易い翻訳文章を生成することができる翻訳方法、翻訳プログラム及び情報処理装置を提供することを目的とする。

　第１の案では、コンピュータに次の処理を実行させる。コンピュータは、翻訳対象の文章に含まれる複数の部分文章の情報及び複数の部分文章の順序と、翻訳対象の文章の翻訳結果となる文章に含まれる複数の部分翻訳文章の情報及び複数の部分翻訳文章の順序との関係を基に学習された翻訳学習モデルを記憶する。コンピュータは、新たな翻訳対象の第３文章を受け付けると、第３文章に含まれる複数の部分文章の情報を特定する。コンピュータは、特定した複数の部分文章の情報を順に、翻訳学習モデルに入力することで、特定した複数の部分文章の情報に対応する、複数の部分翻訳文章の情報の順序を制御する。

　理解し易い翻訳文章を生成することができる。

図１は、本実施例１の情報処理装置の学習フェーズの処理を説明するための図である。図２は、目的文章の構成の一例を説明するための図である。図３は、日本語の文章と英語の文章との関係を示す図である。図４は、本実施例１の情報処理装置の分析フェーズの処理を説明するための図である。図５は、本実施例１に係る情報処理装置の構成を示す機能ブロック図である。図６は、対訳テーブルのデータ構造の一例を示す図である。図７は、圧縮ファイルテーブルのデータ構造の一例を示す図である。図８は、転置インデックステーブルの一例を示す図（１）である。図９は、日本語文章転置インデックスのデータ構造の一例を示す図である。図１０は、辞書情報のデータ構造の一例を示す図である。図１１は、本実施例１に係る情報処理装置の学習フェーズの処理を示すフローチャートである。図１２は、本実施例１に係る情報処理装置の分析フェーズの処理を示すフローチャートである。図１３は、本実施例２の情報処理装置の学習フェーズの処理を説明するための図である。図１４は、本実施例２の情報処理装置の分析フェーズの処理を説明するための図である。図１５は、本実施例２に係る情報処理装置の構成の一例を示す図である。図１６は、転置インデックステーブルの一例を示す図（２）である。図１７は、代替項ベクトルテーブルのデータ構造の一例を示す図である。図１８は、本実施例２に係る情報処理装置の学習フェーズの処理を示すフローチャートである。図１９は、本実施例２に係る情報処理装置の分析フェーズの処理を示すフローチャートである。図２０は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

　以下に、本願の開示する翻訳方法、翻訳プログラム及び情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

　本実施例１に係る情報処理装置の処理の一例について説明する。本実施例１では、日本語の文章を、英語の文章に翻訳する場合について説明するが、これに限定されるものではなく、ある言語の文章を、他言語の文章に翻訳する場合も適用可能である。

　図１は、本実施例１の情報処理装置の学習フェーズの処理を説明するための図である。学習フェーズにおいて、情報処理装置は、第１学習データ６５ａを用いて、第１学習モデル７０ａの機械学習を実行する。また、情報処理装置は、第２学習データ６５ｂを用いて、第２学習モデル７０ｂの機械学習を実行する。第１学習モデル７０ａおよび第２学習モデル７０ｂは、ＣＮＮ（Convolutional　Neural　Network）やＲＮＮ（Recurrent　Neural　Network）、オートエンコーダ（Autoencoder）等に対応する。

　第１学習データ６５ａについて説明する。第１学習データ６５ａは、目的文章のベクトルと、日本語項のベクトルとの関係を定義する。目的文章のベクトルが入力データに対応し、日本語項のベクトルが正解ラベルに対応する。日本語及び英語等の各言語の文章には、複数の項が含まれ、各項には、複数の文が含まれ、各文には、複数の単語が含まれる。

　図２は、目的文章の構成の一例を説明するための図である。図２に示すように、目的文章２０には、項２１，２２，２３，２４が含まれる。項２１には、文２１ａ，２１ｂが含まれる。項２２には、文２２ａ，２２ｂが含まれる。項２３には、文２３ａ，２３ｂが含まれる。項２４には、文２４ａ，２４ｂが含まれる。図示を省略するが、各文２１ａ，２１ｂ，２２ａ，２２ｂ，２３ａ，２３ｂ，２４ａ，２４ｂには、複数の単語が含まれる。

　たとえば、目的文章が、「理由１」、「理由２」、「理由３」、「結論」に従って記載されているとすれば、項２１，２２，２３，２４は、それぞれ、「理由１」、「理由２」、「理由３」、「結論」に対応する内容の項となる。

　情報処理装置は、目的文章２０に含まれる各単語にベクトルを割り当て、文に含まれる単語のベクトルを積算することで、文のベクトルを算出する。情報処理装置は、項に含まれる文のベクトルを積算することで、項のベクトルを算出する。情報処理装置は、目的文章２０に含まれる項のベクトルを積算することで、目的文章２０のベクトルを算出する。

　同一の項に含まれる複数の文のベクトルは緩やかに推移するが、異なる項同士のベクトルは乖離する場合が多い。これは、各項で記載された内容が異なるためである。

　図１に示した第１学習データ６５ａの目的文章のベクトルは、目的文章２０のベクトルに相当し、日本語項のベクトルは、それぞれ、項２１，２２，２３，２４のベクトルに相当する。また、その他の目的文章について、目的文章のベクトルと、日本語項（複数の項）のベクトルとの関係が、第１学習データ６５ａに登録される。

　情報処理装置は、目的文章のベクトルを第１学習モデル７０ａに入力した際の出力が、各日本語項のベクトルに近づくように、誤差逆伝播による学習を実行する。情報処理装置は、第１学習データ６５ａに含まれる目的文章のベクトルと、複数の日本語項のベクトルとの関係を基にして、上記処理を繰り返し実行することで、第１学習モデル７０ａのパラメータを調整する（機械学習を実行する）。

　続いて、第２学習データ６５ｂについて説明する。第２学習データ６５ｂは、日本語項（複数の項）のベクトルと、英語項（複数の項）のベクトルとの関係を定義する。日本語項（複数の日本語項）のベクトルが入力データに対応し、英語項（複数の英語項）のベクトルが正解ラベルに対応する。

　たとえば、日本語の論文（文章に相当）には、翻訳された英語の論文が存在する場合が多いが、対訳関係にある日本語の論文と英語の論文とを比較すると、項の順番が入れ替わる場合がある。

　図３は、日本語の文章と英語の文章との関係を示す図である。たとえば、日本語の文章３０には、項３０ａ，３０ｂ，３０ｃが含まれる。英語の文章３５には、項３５ａ，３５ｂ，３５ｃが含まれる。項３０ａは、「まず、」等の単語から開始され、「理由１」に相当する内容が記載される。項３０ｂは、「最後に、」等の単語から開始され、「理由ｎ」に相当する内容が記載される。項３０ｃは、「結論」に相当する内容が記載される。

　英語の文章３５は、日本語の文章３０を基に翻訳された文章であるが、項の順番が変更されている。たとえば、英語の文章３５には、項３５ａ，３５ｂ，３５ｃが含まれる。項３５ａは、「Generally」等の単語から開始され、「結論」に相当する内容が記載される。項３５ｂは、「Because」等の単語から開始され、「理由１」に相当する内容が記載される。項３５ｃは、「Finally」等の単語から開始され、「理由ｎ」に相当する内容が記載される。

　すなわち、項３０ａと、項３５ｂとが対応し、項３０ｂと、項３５ｃとが対応し、項３０ｃと、項３５ａとが対応することを意味し、日本語の文章３０と、英語の文章３５では、項の順番が入れ替わっている。図１に示した第２学習データ６５ｂでは、項３０ａ（理由１）のベクトル、項３０ｂ（理由ｎ）のベクトル、項３０ｃ（結論）のベクトルを順番に入力した場合（入力データを入力した場合）に、項３５ａ（結論）のベクトル、項３５ｂ（理由１）のベクトル、項３０ｃ（理由ｎ）のベクトルを順番に出力されることが、正解ラベルとして設定される。

　情報処理装置は、各日本語項のベクトルを第２学習モデル７０ｂに先頭から順に入力した際の出力が、正解ラベルに設定された各英語項のベクトルの順に出力されるように、誤差逆伝播による学習を実行する。情報処理装置は、第１学習データ６５ａに含まれる目的文章のベクトルと、複数の日本語項のベクトルとの関係を基にして、上記処理を繰り返し実行することで、第１学習モデル７０ａのパラメータを調整する（機械学習を実行する）。

　図４は、本実施例１の情報処理装置の分析フェーズの処理を説明するための図である。図４に示すように、情報処理装置は、分析クエリ８０を取得する。分析クエリ８０は、翻訳対象となる日本語の文章が含まれる。情報処理装置は、分析クエリ８０をベクトル「Ｖｏｂ８０」に変換する。情報処理装置が文章のベクトルを算出する処理は、図２で説明したように、単語のベクトルを積算して文のベクトルを算出し、文のベクトルを積算して項のベクトルを算出し、項のベクトルを積算して文章のベクトルを算出する。

　情報処理装置は、分析クエリ８０をベクトル「Ｖｏｂ８０」を第１学習モデル７０ａに入力することで、分析クエリ８０に含まれる目的文章の各項のベクトル「Ｖｓｂ８０－ｒ１」、「Ｖｓｂ８０－ｒ２」、・・・、「Ｖｓｂ８０－ｒｎ」、「Ｖｓｂ８０－ｃｏｎ」を特定する。

　たとえば、ベクトル「Ｖｓｂ８０－ｒ１」に対応する項は、日本語文章の理由１に相当する項のベクトルに相当する。ベクトル「Ｖｓｂ８０－ｒｎ」に対応する項は、日本語文章の理由ｎに相当する項のベクトルに相当する。ベクトル「Ｖｓｂ８０－ｃｏｎ」に対応する項は、日本語文章の結論に相当する項のベクトルに相当する。

　情報処理装置は、第１学習モデル７０ａを用いて特定した各項のベクトルを、第２学習モデル７０ｂに順に、入力することで、英語文章の各項のベクトル「Ｖｓｂ９０－ｃｏｎ」、「Ｖｓｂ９０－ｒ１」、・・・、「Ｖｓｂ９０－ｒｎ」を順に特定する。

　たとえば、ベクトル「Ｖｓｂ９０－ｃｏｎ」に対応する項は、英語文章の結論に相当する項のベクトルに相当する。ベクトル「Ｖｓｂ９０－ｒ１」に対応する項は、英語文章の理由１に相当する項のベクトルに相当する。ベクトル「Ｖｓｂ９０－ｒｎ」に対応する項は、英語文章の理由ｎに相当する項のベクトルに相当する。

　情報処理装置は、「Ｖｓｂ９０－ｃｏｎ」、「Ｖｓｂ９０－ｒ１」、・・・、「Ｖｓｂ９０－ｒｎ」に対応する英語文章の項を、対訳テーブル１４１から抽出し、翻訳文として出力する。

　上記のように、本実施例１に係る情報処理装置は、事前に第１学習モデル７０ａおよび第２学習モデル７０ｂを学習しておく。情報処理装置は、分析クエリ８０を受信すると、分析クエリ８０のベクトルを、第１学習モデル７０ａに入力することで、日本語文章の複数の項に対応するベクトルを算出する。情報処理装置は、日本語文章の複数の項に対応するベクトルを順に、第２学習モデル７０ｂに入力することで、日本語文章の項に対応する英語文章の項のベクトルであって、項のベクトルの出力順が制御された複数のベクトルを算出する。情報処理装置は、算出したベクトルに対応する英語文章の項を、対訳テーブル１４１から取得し、翻訳結果として出力する。このように、日本語文章の項の順序を、英語固有の英語文章の項の順序に調整した後に、翻訳内容自体は、対訳テーブル１４１に含まれる項を流用することで、理解し易い翻訳文章を生成するができる。

　次に、本実施例１に係る情報処理装置の構成の一例について説明する。図５は、本実施例１に係る情報処理装置の構成を示す機能ブロック図である。図５に示すように、この情報処理装置１００は、通信部１１０、入力部１２０、表示部１３０、記憶部１４０、制御部１５０を有する。

　通信部１１０は、有線又は無線で外部装置等に接続され、外部装置等との間で情報の送受信を行う。たとえば、通信部１１０は、ＮＩＣ（Network　Interface　Card）等によって実現される。通信部１１０は、図示しないネットワークに接続されていてもよい。

　入力部１２０は、各種の情報を、情報処理装置１００に入力する入力装置である。入力部１２０は、キーボードやマウス、タッチパネル等に対応する。たとえば、ユーザは、入力部１２０を操作して、分析クエリ等を入力してもよい。

　表示部１３０は、制御部１５０から出力される情報を表示する表示装置である。表示部１３０は、液晶ディスプレイ、有機ＥＬ（Electro　Luminescence）ディスプレイ、タッチパネル等に対応する。たとえば、分析クエリに対応する翻訳結果が、表示部１３０に表示される。

　記憶部１４０は、対訳テーブル１４１、圧縮ファイルテーブル１４２、転置インデックステーブル１４３、辞書情報１４４を有する。また、記憶部１４０は、第１学習データ６５ａ、第２学習データ６５ｂ、第１学習モデル７０ａ、第２学習モデル７０ｂ、分析クエリ８０を有する。記憶部１４０は、たとえば、ＲＡＭ（Random　Access　Memory)、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。

　対訳テーブル１４１は、日本語文章と、この日本語の翻訳結果となる英語文章との組を複数保持するテーブルである。図６は、対訳テーブルのデータ構造の一例を示す図である。図６に示すように、対訳テーブル１４１は、項番、日本語文章、英語文章を有する。項番は、対訳テーブル１４１のレコードの項番である。日本語文章は、日本語のテキストデータであり、複数の項を有する。英語文章は、英語のテキストデータであり、複数の項を有する。

　圧縮ファイルテーブル１４２は、日本語文章の圧縮ファイルと、英語文章の圧縮ファイルとを有する。図７は、圧縮ファイルテーブルのデータ構造の一例を示す図である。図７に示すように、圧縮ファイルテーブル１４２は、日本語文章圧縮ファイル１４２ａと、英語文章圧縮ファイル１４２ｂとを有する。日本語文章圧縮ファイル１４２ａは、複数の日本語文章で構成され、各日本語文章に含まれる各単語を符号にそれぞれ変換したファイルである。英語文章圧縮ファイル１４２ｂは、複数の英語文章で構成され、各英語文章に含まれる各英単語を符号にそれぞれ変換したファイルである。

　転置インデックステーブル１４３は、日本語文章に関する転置インデックスと、英語文章に関する転置インデックスを有する。図８は、転置インデックステーブルの一例を示す図（１）である。図８に示すように、この転置インデックステーブル１４３は、日本語文章転置インデックス１４３ａ、英語文章転置インデックス１４３ｂ、日本語項転置インデックス１４３ｃ、英語項転置インデックス１４３ｄ、日本語文転置インデックス１４３ｅ、英語文転置インデックス１４３ｆ、日本語単語転置インデックス１４３ｇ、英語単語転置インデックス１４３ｈを有する。

　日本語文章転置インデックス１４３ａは、日本語の文章のベクトル（以下、日本語文章ベクトル）と、日本語文章ベクトルに対応する文章であって、符号化された文章の位置を示すオフセットとを対応付ける。符号化された日本語文章は、日本語文章圧縮ファイル１４２ａに登録されている。符号化された文章は、符号化された複数の単語を有し、符号化された文章の先頭の単語のオフセットが、符号化された文章の位置となる。オフセットは、日本語文章圧縮ファイル１４２ａの先頭からの位置に対応する。日本語文章圧縮ファイル１４２ａの先頭の単語のオフセットを「０」とする。

　図９は、日本語文章転置インデックスのデータ構造の一例を示す図（である。図９に示すように、日本語文章転置インデックス１４３ａの横軸は、オフセットに対応する軸である。日本語文章転置インデックス１４３ａの横軸は、日本語文章ベクトルに対応する軸である。日本語文章転置インデックス１４３ａは、「０」または「１」のビットマップで示され、初期状態では全てのビットマップが「０」に設定される。

　たとえば、日本語文章ベクトル「Ｖｏｂ１」の行と、オフセット「７」の列とが交差する部分に「１」が設定されている。このため、日本語文章ベクトル「Ｖｏｂ１」の文章（符号化された文章）の先頭の単語の位置が、日本語文章圧縮ファイル１４２ａの先頭から８番目の位置に存在していることが示される。

　英語文章転置インデックス１４３ｂは、英語の文章のベクトル（以下、英語文章ベクトル）と、英語文章ベクトルに対応する文章であって、符号化された文章の位置を示すオフセットとを対応付ける。符号化された英語文章は、英語文章圧縮ファイル１４２ｂに登録されている。符号化された文章は、符号化された複数の単語を有し、符号化された文章の先頭の単語のオフセットが、符号化された文章の位置となる。オフセットは、英語文章圧縮ファイル１４２ｂの先頭からの位置に対応する。英語文章圧縮ファイル１４２ｂの先頭の単語のオフセットを「０」とする。

　英語文章転置インデックス１４３ｂは、オフセットに対応する横軸と、英語文章ベクトルに対応する縦軸とを有する。英語文章転置インデックス１４３ｂの図示を省略する。

　日本語項転置インデックス１４３ｃは、日本語の文章に含まれる項のベクトル（以下、日本語項ベクトル）と、日本語項ベクトルに対応する項であって、符号化された項の位置を示すオフセットとを対応付ける。符号化された日本語文章は、日本語文章圧縮ファイル１４２ａに登録されている。符号化された項は、符号化された複数の単語を有し、符号化された項の先頭の単語のオフセットが、符号化された項の位置となる。オフセットは、日本語文章圧縮ファイル１４２ａの先頭からの位置に対応する。

　日本語項転置インデックス１４３ｃは、オフセットに対応する横軸と、日本語項ベクトルに対応する縦軸とを有する。日本語項転置インデックス１４３ｃの図示を省略する。

　英語項転置インデックス１４３ｄは、英語の項のベクトル（以下、英語項ベクトル）と、英語項ベクトルに対応する項であって、符号化された項の位置を示すオフセットとを対応付ける。符号化された英語項は、英語文章圧縮ファイル１４２ｂに登録されている。符号化された項は、符号化された複数の単語を有し、符号化された項の先頭の単語のオフセットが、符号化された項の位置となる。オフセットは、英語文章圧縮ファイル１４２ｂの先頭からの位置に対応する。

　英語項転置インデックス１４３ｄは、オフセットに対応する横軸と、英語項ベクトルに対応する縦軸とを有する。英語項転置インデックス１４３ｄの図示を省略する。

　日本語文転置インデックス１４３ｅは、日本語の文章に含まれる文のベクトル（以下、日本語文ベクトル）と、日本語文ベクトルに対応する文であって、符号化された文の位置を示すオフセットとを対応付ける。符号化された日本語文章は、日本語文章圧縮ファイル１４２ａに登録されている。符号化された日本語の文は、符号化された複数の単語を有し、符号化された文の先頭の単語のオフセットが、符号化された文の位置となる。オフセットは、日本語文章圧縮ファイル１４２ａの先頭からの位置に対応する。

　日本語文転置インデックス１４３ｅは、オフセットに対応する横軸と、日本語文ベクトルに対応する縦軸とを有する。日本語文転置インデックス１４３ｅの図示を省略する。

　英語文転置インデックス１４３ｆは、英語の文のベクトル（以下、英語文ベクトル）と、英語文ベクトルに対応する文であって、符号化された文の位置を示すオフセットとを対応付ける。符号化された英語の文は、英語文章圧縮ファイル１４２ｂに登録されている。符号化された文は、符号化された複数の単語を有し、符号化された文の先頭の単語のオフセットが、符号化された文の位置となる。オフセットは、英語文章圧縮ファイル１４２ｂの先頭からの位置に対応する。

　英語文転置インデックス１４３ｆは、オフセットに対応する横軸と、英語文ベクトルに対応する縦軸とを有する。英語文転置インデックス１４３ｆの図示を省略する。

　日本語単語転置インデックス１４３ｇは、日本語の文章に含まれる単語のベクトル（以下、日本語単語ベクトル）と、日本語単語ベクトルに対応する文であって、符号化された単語の位置を示すオフセットとを対応付ける。符号化された日本語文章は、日本語文章圧縮ファイル１４２ａに登録されている。オフセットは、日本語文章圧縮ファイル１４２ａの先頭からの位置に対応する。

　日本語単語転置インデックス１４３ｇは、オフセットに対応する横軸と、日本語単語ベクトルに対応する縦軸とを有する。日本語単語転置インデックス１４３ｇの図示を省略する。

　英語単語転置インデックス１４３ｈは、英語の単語のベクトル（以下、英語単語ベクトル）と、英語単語ベクトルに対応する文であって、符号化された単語の位置を示すオフセットとを対応付ける。符号化された英語の単語は、英語文章圧縮ファイル１４２ｂに登録されている。オフセットは、英語文章圧縮ファイル１４２ｂの先頭からの位置に対応する。

　英語単語転置インデックス１４３ｈは、オフセットに対応する横軸と、英語単語ベクトルに対応する縦軸とを有する。英語単語転置インデックス１４３ｈの図示を省略する。

　辞書情報１４４は、日本語の単語に対応する圧縮符号を定義する辞書情報である。図１０は、辞書情報のデータ構造の一例を示す図である。図１０に示すように、辞書情報１４４は、単語（日本語単語または英単語）と、圧縮符号と、ベクトルとを対応付ける。圧縮符号に対応するベクトルは、事前にポアンカレエンベッディング等によって、割り当てられているものとする。なお、圧縮符号のベクトルは、他の従来技術を基にして特定されてもよい。

　第１学習データ６５ａは、図１で説明した第１学習データ６５ａに対応する。第１学習データ６５ａは、目的文章のベクトルと、日本語項のベクトルとの関係を定義する。目的文章のベクトルが入力データに対応し、日本語項のベクトルが正解ラベルに対応する。

　第２学習データ６５ｂは、図１で説明した第２学習データ６５ｂに対応する。第２学習データ６５ｂは、日本語項（複数の項）のベクトルと、英語項（複数の項）のベクトルとの関係を定義する。日本語項（複数の日本語項）のベクトルが入力データに対応し、英語項（複数の英語項）のベクトルが正解ラベルに対応する。

　第１学習モデル７０ａは、第１学習データ６５ａを基にして機械学習される学習モデルである。

　第２学習モデル７０ｂは、第２学習データ６５ｂを基にして機械学習される学習モデルである。

　分析クエリ８０は、外部より指定されるクエリである。本実施例１では、分析クエリ８０には、翻訳対象となる日本語文章が設定される。

　図５の説明に戻る。制御部１５０は、前処理部１５１、学習部１５２、翻訳部１５３を有する。制御部１５０は、たとえば、ＣＰＵ（Central　Processing　Unit）やＭＰＵ(Micro　Processing　Unit)により実現される。また、制御部１５０は、例えばＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路により実行されてもよい。

　前処理部１５１は、対訳テーブル１４１と、辞書情報１４４とを基にして、圧縮ファイルテーブル１４２を生成する過程において、転置インデックステーブル１４３、第１学習データ６５ａ、第２学習データ６５ｂを生成する。以下において、前処理部１５１の処理の一例について説明する。

　前処理部１５１は、対訳テーブル１４１を参照し、未選択の項番のレコードから、日本語文章のテキストデータと、英語文章のテキストデータとの組を取得する。

　前処理部１５１は、日本語文章のテキストデータに対して、形態素解析を実行することで、複数の単語、句点、改行の等を特定し、テキストデータに含まれる複数の項、項に含まれる文を特定する。たとえば、前処理部１５１は、日本語文章のテキストデータにおいて、改行から次の改行までの単語の集まりを、日本語の項として特定する。前処理部１５１は、句点から次の句点までの単語の集まりを、日本語の文として特定する。

　また、前処理部１５１は、所定の接続詞を更に利用して、項の開始位置を特定してもよい。たとえば、「まず、」、「最後に」、「つまり」のような接続詞あるいは接続詞に相当する文字列を、日本語の項の開始位置として特定する。前処理部１５１は、「generally」、「because」、「finally」のような接続詞あるいは接続詞に相当する文字列を、英語の項の開始位置として特定する。

　前処理部１５１は、日本語文章のテキストデータの単語と、辞書情報１４４とを基にして、単語の圧縮符号および単語に割り当てられたベクトルを特定する。前処理部１５１は、日本語文章のテキストデータの単語のベクトルを基にして、各文の日本語文ベクトル、各項の日本語項ベクトル、テキストデータ（文章）の日本語文章ベクトルを算出する。また、前処理部１５１は、日本語文章のテキストデータの単語を圧縮符号に変換し、日本語文章圧縮ファイル１４２ａに登録する。

　前処理部１５１は、日本語文章ベクトルと、日本語文章圧縮ファイル１４２ａ上の日本語文章のオフセットとの関係を、日本語文章転置インデックス１４３ａに設定する。前処理部１５１は、日本語項ベクトルと、日本語文章圧縮ファイル１４２ａ上の各項のオフセットとの関係を、日本語項転置インデックス１４３ｃに設定する。前処理部１５１は、日本語文ベクトルと、日本語文章圧縮ファイル１４２ａ上の各文のオフセットとの関係を、日本語文転置インデックス１４３ｅに設定する。前処理部１５１は、日本語単語ベクトルと、日本語文章圧縮ファイル１４２ａ上の各文のオフセットとの関係を、日本語単語転置インデックス１４３ｇに設定する。

　前処理部１５１は、日本語文章のテキストデータから特定した、日本語文章ベクトルと、複数の日本語項ベクトルとの関係を、第１学習データ６５ａに登録する。

　前処理部１５１は、英語文章のテキストデータに対して、形態素解析を実行することで、複数の単語、句点（ピリオド）、改行の等を特定し、テキストデータに含まれる複数の項、項に含まれる文を特定する。たとえば、前処理部１５１は、英語文章のテキストデータにおいて、改行から次の改行までの単語の集まりを、英語の項として特定する。前処理部１５１は、句点から次の句点までの単語の集まりを、英語の文として特定する。

　前処理部１５１は、英語文章のテキストデータの単語と、辞書情報１４４とを基にして、単語の圧縮符号および単語に割り当てられたベクトルを特定する。前処理部１５１は、英語文章のテキストデータの単語のベクトルを基にして、各文の英語文ベクトル、各項の英語項ベクトル、テキストデータ（文章）の英語文章ベクトルを算出する。また、前処理部１５１は、英語文章のテキストデータの単語を圧縮符号に変換し、英語文章圧縮ファイル１４２ｂに登録する。

　前処理部１５１は、英語文章ベクトルと、英語文章圧縮ファイル１４２ｂ上の英語文章のオフセットとの関係を、英語文章転置インデックス１４３ｂに設定する。前処理部１５１は、英語項ベクトルと、英語文章圧縮ファイル１４２ｂ上の各項のオフセットとの関係を、英語項転置インデックス１４３ｄに設定する。前処理部１５１は、英語文ベクトルと、英語文章圧縮ファイル１４２ｂ上の各文のオフセットとの関係を、英語文転置インデックス１４３ｆに設定する。前処理部１５１は、英語単語ベクトルと、英語文章圧縮ファイル１４２ｂ上の各文のオフセットとの関係を、英語単語転置インデックス１４３ｈに設定する。

　前処理部１５１は、日本語文章のテキストデータから特定した各日本語項ベクトルを先頭からの順序で、第２学習データ６５ｂに登録する。前処理部１５１は、英語文章のテキストデータから特定した各英語項ベクトルを先頭からの順序で、第２学習データ６５ｂに登録する。

　前処理部１５１は、対訳テーブル１４１に含まれる項番のレコードの日本語文章のテキストデータと、英語文章のテキストデータとを基にして、上記処理を繰り返し実行することで、第１学習データ６５ａ、第２学習データ６５ｂを生成する。本実施例１では、前処理部１５１が、第１学習データ６５ａ、第２学習データ６５ｂを生成する場合について説明したが、外部装置等から、第１学習データ６５ａ、第２学習データ６５ｂを受信して、利用してもよい。

　学習部１５２は、第１学習データ６５ａを基にして、第１学習モデル７０ａの機械学習を実行する。学習部１５２は、第２学習データ６５ｂを基にして、第２学習モデル７０ｂの機械学習を実行する。

　学習部１５２は、図１で説明したように、目的文章のベクトル（日本語文章ベクトル）を第１学習モデル７０ａに入力した際の出力が、各日本語項のベクトル（日本語項ベクトル）に近づくように、誤差逆伝播による学習を実行する。学習部１５２は、第１学習データ６５ａに含まれる目的文章のベクトルと、複数の日本語項のベクトルとの関係を基にして、上記処理を繰り返し実行することで、第１学習モデル７０ａのパラメータを調整する（機械学習を実行する）。

　学習部１５２は、図１で説明したように、各日本語項のベクトル（日本語項ベクトル）を第２学習モデル７０ｂに先頭から順に入力した際の出力が、正解ラベルに設定された各英語項のベクトル（英語項ベクトル）の順に出力されるように、誤差逆伝播による学習を実行する。学習部１５２は、第１学習データ６５ａに含まれる目的文章のベクトルと、複数の日本語項のベクトルとの関係を基にして、上記処理を繰り返し実行することで、第１学習モデル７０ａのパラメータを調整する（機械学習を実行する）。

　翻訳部１５３は、分析クエリ８０を受信した場合に、分析クエリ８０に含まれる日本語文章の翻訳を実行する。翻訳部１５３は、入力部１２０または通信部１１０から、分析クエリ８０を受け付け、記憶部１４０に記憶する。以下において、翻訳部１５３の処理の一例について説明する。

　翻訳部１５３は、分析クエリ８０に含まれる日本語文章のテキストデータに対して形態素解析を実行し、テキストデータを複数の単語に分割する。翻訳部１５３は、テキストデータに含まれる単語と、辞書情報１４４とを基にして、単語のベクトルを特定する。翻訳部１５３は、各単語のベクトルを積算することで、各文のベクトルを算出する。翻訳部１５３は、各文のベクトルを積算することで、各項のベクトルを算出する。翻訳部１５３は、各項のベクトルを積算することで、分析クエリ８０のベクトルを算出する。

　翻訳部１５３は、分析クエリ８０のベクトルを、第１学習モデル７０ａに入力することで、分析クエリ８０の日本語文章のテキストに含まれる複数の日本語項ベクトルを算出する。図４で説明した例では、翻訳部１５３は、分析クエリ８０をベクトル「Ｖｏｂ８０」を第１学習モデル７０ａに入力することで、分析クエリ８０に含まれる目的文章の各日本語項ベクトル「Ｖｓｂ８０－１」、「Ｖｓｂ８０－２」、・・・、「Ｖｓｂ８０－ｎ」を特定する。

　翻訳部１５３は、第１学習モデル７０ａを基に算出した複数の日本語項ベクトルを第２学習モデル７０ｂに順に入力することで、英語項ベクトルを順に算出する。図４で説明した例では、翻訳部１５３は、各日本語項ベクトル「Ｖｓｂ８０－１」、「Ｖｓｂ８０－２」、・・・、「Ｖｓｂ８０－ｎ」を順に、第２学習モデル７０ｂに入力することで、英語文章の各英語項ベクトル「Ｖｓｂ９０－１」、「Ｖｓｂ９０－２」、・・・、「Ｖｓｂ９０－ｎ」を順に特定する。

　翻訳部１５３は、第２学習モデル７０ｂを基に特定した各英語項ベクトルと、英語項転置インデックス１４３ｄとを基にして、各英語項ベクトルに対応する符号化された項のオフセットをそれぞれ特定する。翻訳部１５３は、特定した各項のオフセットを基にして、英語文章圧縮ファイル１４２ｂから、符号化された項の情報（符号化配列）を取得する。

　翻訳部１５３は、符号化された項の情報（符号化配列）と、辞書情報１４４とを基にして、符号化された項の情報を復号する。たとえば、翻訳部１５３は、各英語項ベクトル「Ｖｓｂ９０－１」の項の復号結果、「Ｖｓｂ９０－２」の項の復号結果、・・・、「Ｖｓｂ９０－ｎ」の項の復号結果の順に並べることで、翻訳結果の情報を生成する。翻訳部１５３は、翻訳結果の情報を、表示部１３０に表示させる。また、翻訳結果の情報を、分析クエリ８０の送信元となる外部装置に送信してもよい。

　次に、本実施例１に係る情報処理装置１００の処理手順の一例について説明する。図１１は、本実施例１に係る情報処理装置の学習フェーズの処理を示すフローチャートである。図１１に示すように、情報処理装置１００の前処理部１５１は、対訳テーブル１４１を基にして、前処理を実行し、圧縮ファイルテーブル１４２、転置インデックステーブル１４３、第１学習データ６５ａ、第２学習データ６５ｂを生成する（ステップＳ１０１）。

　情報処理装置１００の学習部１５２は、第１学習データ６５ａを基にして、第１学習モデル７０ａの機械学習を実行する（ステップＳ１０２）。

　情報処理装置１００の学習部１５２は、第２学習データ６５ｂを基にして、第２学習モデル７０ｂの機械学習を実行する（ステップＳ１０３）。

　図１２は、本実施例１に係る情報処理装置の分析フェーズの処理を示すフローチャートである。図１２に示すように、情報処理装置１００の翻訳部１５３は、分析クエリ８０を受け付け、記憶部１４０に記憶する（ステップＳ２０１）。

　翻訳部１５３は、分析クエリ８０のベクトルを算出する（ステップＳ２０２）。翻訳部１５３は、分析クエリ８０のベクトルを第１学習モデル７０ａに入力することで、複数の日本語項ベクトルを算出する（ステップＳ２０３）。

　翻訳部１５３は、複数の日本語項ベクトルを順に、第２学習モデル７０ｂに入力し、複数の英語項ベクトルおよびその順序を取得する（ステップＳ２０４）。翻訳部１５３は、英語項ベクトルと英語項転置インデックス１４３ｄとを基にして、項のオフセットを特定する（ステップＳ２０５）。

　翻訳部１５３は、項のオフセットを基にして、英語文章圧縮ファイル１４２ｂから、各項の符号配列を取得する（ステップＳ２０６）。翻訳部１５３は、各項の符号配列と、辞書情報１４４とを基にして、各項の符号配列を復号する（ステップＳ２０７）。

　翻訳部１５３は、復号結果を順序に従って並べることで、翻訳結果を生成する（ステップＳ１０８）。翻訳部１５３は、翻訳結果を出力する（ステップＳ２０９）。

　次に、本実施例１に係る情報処理装置１００の効果について説明する。情報処理装置１００は、事前に第１学習モデル７０ａおよび第２学習モデル７０ｂを学習しておく。情報処理装置１００は、分析クエリ８０を受信すると、分析クエリ８０のベクトルを、第１学習モデル７０ａに入力することで、日本語文章の複数の項に対応するベクトルを算出する。情報処理装置１００は、日本語文章の複数の項に対応するベクトルを順に、第２学習モデル７０ｂに入力することで、日本語文章の項に対応する英語文章の項のベクトルであって、項のベクトルの出力順が制御された複数のベクトルを算出する。情報処理装置１００は、算出したベクトルに対応する英語文章の項を、記憶部１４０から取得し、翻訳結果として出力する。このように、日本語文章の項の順序を、英語固有の英語文章の項の順序に調整した後に、翻訳内容自体は、対訳テーブル１４１に含まれる項を流用することで、理解し易い翻訳文章を生成するができる。

　ところで、本実施例１に係る情報処理装置１００は、第１学習モデル７０ａに、目的文章のベクトル（日本語文章ベクトル）と、日本語項のベクトル（日本語項ベクトル）との関係を設定して、機械学習を行っていたが、これに限定されるものではない。たとえば、情報処理装置１００の文や項のベクトルのクラスタリングを行って、類似する日本語文章ベクトルおよび日本語文ベクトルの組をまとめてもよい。

　また、機械学習をもとに、目的文章を複数の項に分解する機能は、機械翻訳に加え、新聞の社説や雑誌の記事、論文などを、「起」「承」「転」「結」などの複数の項の分解などに、適用拡大することができる。

　図１において、日本語文章ベクトルＶｏｂ１，Ｖｏｂ２が同一のクラスタに属し、日本語項ベクトル（Ｖｓｂ１－１、Ｖｓｂ１－２、・・・Ｖｓｂ１－ｎ）と（Ｖｓｂ２－１、Ｖｓｂ２－２、・・・Ｖｓｂ２－ｎ）がそれぞれ同一のクラスタに属するものとする。この場合、前処理部１５１は、第１学習データ６５ａの１行目のレコードと２行目のレコードとをまとめて１つのレコードとしてもよい。たとえば、一方のレコードを削除してもよいし、同一のクラスタに属するベクトルの平均ベクトルを新たなベクトルとしてもよい。かかる方法で、１０万種以下にクラスタリングを行うことで、第１学習モデル７０ａを機械学習する場合の演算量を削減することが可能となる。たとえば、前処理部１５１、学習部１５２、翻訳部１５３は、同一のクラスタに属する複数のベクトルを、前記同一のクラスタに応じた一つのベクトル（平均ベクトル等）として利用してもよい。

　また、現状のＧＰＵでも演算爆発を回避し、機械学習することが可能となる。前処理部１５１は、第２学習データ６５ｂの各レコードについても同様に処理を行うことで、第２学習モデル７０ｂを機械学習する場合の演算量を削減することができる。なお、クラスタリングの対象はテキストの文字列だけでなく、ソースプログラムや有機化合物の化学構造式、ゲノムの塩基配列、画像のアウトラインPostScriptなどの文字列に適用拡大することができる。

　次に、本実施例２に係る情報処理装置の処理の一例について説明する。図１３は、本実施例２の情報処理装置の学習フェーズの処理を説明するための図である。学習フェーズにおいて、情報処理装置は、学習データ９５を用いて、学習モデル９６の機械学習を実行する。学習モデル９６は、ＣＮＮやＲＮＮ等に対応する。

　学習データ９５について説明する。学習データ９５は、項のベクトルと、共通文のベクトルとを関係を定義する。項のベクトルは、目的文章に含まれる項のベクトルを示す。項に関する説明は、実施例１で説明した項の説明と同様である。共通文は、複数の項に含まれる複数の文のうち、共通する文である。共通文のベクトルは、かかる共通文のベクトルである。

　情報処理装置は、項のベクトルを学習モデル９６に入力した際の出力が、共通文のベクトルに近づくように、誤差逆伝播による学習を実行する。情報処理装置は、学習データ９５に含まれる項のベクトルと、共通文のベクトルとの関係を基にして、上記処理を繰り返し実行することで、学習モデル９６のパラメータを調整する（機械学習を実行する）。

　図１４は、本実施例２の情報処理装置の分析フェーズの処理を説明するための図である。情報処理装置は、分析クエリ９７を取得する。分析クエリ９７は、翻訳対象となる日本語の項が含まれる。情報処理装置は、分析クエリ９７を受け付けると、辞書情報を用いて、分析クエリ９７のベクトル「Ｖｓｂ９７－１」を算出する。情報処理装置は、ベクトル「Ｖｓｂ９７－１」を、学習モデル９６に入力することで、共通文のベクトル「Ｖｃｏ－１」を算出する。

　情報処理装置は、分析クエリ９７（項）のベクトル「Ｖｓｂ９７－１」と、代替項ベクトルテーブルＴ１に含まれる複数の代替項のベクトルとを比較する。代替項ベクトルテーブルＴ１は、代替項のベクトルを保持するテーブルである。

　情報処理装置は、分析クエリ９７のベクトル「Ｖｓｂ９７－１」について、類似する代替項のベクトルを特定する。たとえば、分析クエリ９７のベクトル「Ｖｓｂ９７－１」と類似する代替項のベクトルを、Ｖｓｂ１－１とする。そうすると、ベクトルＶｓｂ９７－１の項と、ベクトルＶｓｂ１－１の代替項とで共通する共通文のベクトルが、学習モデル９６から出力されるベクトルＶｃｏ９７－１となることがわかる。

　情報処理装置は、分析クエリ９７の分析結果として、代替項のベクトル「Ｖｓｂ１－１」に対応する項のテキストデータに含まれる共通文であって、学習モデル９６から出力されるベクトルＶｃｏ９７－１に対応する共通文の情報、および係る共通文の英訳文の情報を出力する。

　上記のように、本実施例２に係る情報処理装置は、学習済みの学習モデル９６に分析クエリ９７のベクトルを入力し、分析クエリ９７の項に対応する共通文のベクトルを算出する。また、分析クエリ９７のベクトルを基にして、類似する代替項のベクトルを特定する。これによって、分析クエリ９７の項と類似する代替項であって、かかる代替項と分析クエリ９７の項とで共通する共通文のベクトルを算出することができる。算出した共通文のベクトルを用いることで、分析クエリ９７の項と類似する代替項の共通文や、かかる共通文に関連付けられた英訳文を抽出することができる。

　また、情報処理装置は、共通文のベクトルと再翻訳文のベクトルとの関係を共通文・再翻訳文テーブル９８に登録してもよい。代替項を構成する各文のベクトルと共通文のベクトルとを比較し減算することで、再翻訳のベクトルを算出する。上記の共通文のベクトルや、再翻訳文のベクトルを用いることで、機械翻訳の流用や再翻訳、および合成のため、より高精度な再翻訳のベクトルを容易に分析することができる。

　図１５は、本実施例２に係る情報処理装置の構成の一例を示す図である。図１５に示すように、この情報処理装置２００は、通信部２１０、入力部２２０、表示部２３０、記憶部２４０、制御部２５０を有する。

　通信部２１０、入力部２２０、表示部２３０に関する説明は、実施例１で説明した通信部１１０、入力部１２０、表示部１３０に関する説明と同様である。

　記憶部２４０は、対訳テーブル２４１、圧縮ファイルテーブル２４２、転置インデックステーブル２４３、辞書情報２４４、学習データ９５、学習モデル９６、分析クエリ９７、共通文・再翻訳テーブル９８を有する。記憶部２４０は、たとえば、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。

　対訳テーブル２４１は、日本語文章と、この日本語文章の翻訳結果となる英語文章との組を複数保持するテーブルである。対訳テーブル２４１に関するその他の説明は、実施例１で説明した対訳テーブル１４１に関する説明と同様である。

　圧縮ファイルテーブル２４２は、日本語文章の圧縮ファイルと、英語文章の圧縮ファイルとを有する。圧縮ファイルテーブル２４２に関するその他の説明は、実施例１で説明した圧縮ファイルテーブル１４２に関する説明と同様である。

　転置インデックステーブル２４３は、日本語文章に関する転置インデックスと、英語文章に関する転置インデックスを有する。図１６は、転置インデックステーブルの一例を示す図（２）である。図１６に示すように、この転置インデックステーブル２４３は、日本語文章転置インデックス２４３ａ、英語文章転置インデックス２４３ｂ、日本語項転置インデックス２４３ｃ、英語項転置インデックス２４３ｄ、日本語文転置インデックス２４３ｅ、英語文転置インデックス２４３ｆ、日本語単語転置インデックス２４３ｇ、英語単語転置インデックス２４３ｈを有する。

　転置インデックステーブル２４３に含まれる日本語文章転置インデックス２４３ａ、英語文章転置インデックス２４３ｂ、日本語項転置インデックス２４３ｃ、英語項転置インデックス２４３ｄ、日本語文転置インデックス２４３ｅ、英語文転置インデックス２４３ｆ、日本語単語転置インデックス２４３ｇ、英語単語転置インデックス２４３ｈの説明は、実施例１の図８に示した各インデックスの説明と同様である。

　辞書情報２４４は、日本語の単語に対応する圧縮符号を定義する辞書情報である。辞書情報２４４に関するその他の説明は、実施例１で説明した辞書情報１４４に関する説明と同様である。

　代替項ベクトルテーブルＴ１は、代替可能な項のベクトルを保持するテーブルである。図１７は、代替項ベクトルテーブルのデータ構造の一例を示す図である。図１７に示すように、代替項ベクトルテーブルＴ１には、複数の日本語項のベクトル（日本語項ベクトル）が含まれる。

　学習データ９５は、図１３で説明した学習データ９５に対応する。学習データ９５は、項のベクトルと、共通文のベクトルとを関係を定義する。項のベクトルは、目的文章に含まれる項のベクトルを示す。項に関する説明は、実施例１で説明した項の説明と同様である。共通文は、複数の項に含まれる複数の文のうち、共通する文である。共通文のベクトルは、かかる共通文のベクトルである。

　学習モデル９６は、学習データ９５を基にして機械学習される学習モデルである。

　分析クエリ９７は、外部より指定されるクエリである。本実施例２では、分析クエリ９７には、翻訳対象となる日本語の項が設定される。

　図１５の説明に戻る。制御部２５０は、前処理部２５１、学習部２５２、翻訳部２５３を有する。制御部２５０は、たとえば、ＣＰＵやＭＰＵにより実現される。また、制御部２５０は、例えばＡＳＩＣやＦＰＧＡ等の集積回路により実行されてもよい。

　前処理部２５１は、対訳テーブル２４１と、辞書情報２４４とを基にして、圧縮ファイルテーブル２４２を生成する過程において、転置インデックステーブル２４３、代替項ベクトルテーブルＴ１、学習データ９５を生成する。以下において、前処理部２５１の処理の一例について説明する。

　なお、前処理部２５１が、圧縮ファイルテーブル２４２、転置インデックステーブル２４３を生成する処理は、実施例１と同様であるため、説明を省略する。

　前処理部２５１は、日本語項ベクトルを算出し、日本語項転置インデックス２４３ｃを生成する場合に、日本語項ベクトルを、代替項ベクトルテーブルＴ１に登録する処理を繰り返し実行することで、代替項ベクトルテーブルＴ１を生成する。なお、前処理部２５１は、代替項の候補として、事前に指定されている場合には、指定された代替項のベクトルを算出した場合に、かかる代替項のベクトルを、代替項ベクトルテーブルＴ１に登録してもよい。

　前処理部２５１が、学習データ９５を生成する処理の一例について説明する。前処理部２５１は、対訳テーブル２４１に含まれる日本語文章のうち、学習データ９５に設定する日本語項と、かかる日本語項に含まれる共通文の指定を受け付けておく。前処理部２５１は、日本語項ベクトルを算出し、日本語項転置インデックス２４３ｃを生成する場合、および、日本語文ベクトルを算出し、日本語文転置インデックス２４３ｅを生成する場合に、日本語項のベクトルと、かかる日本語項に含まれる共通文のベクトルとの関係を、学習データ９５に登録する処理を繰り返し実行することで、学習データ９５を生成する。

　学習部２５２は、学習データ９５を基にして、学習モデル９６の機械学習を実行する。学習部２５２は、図１３で説明したように、項のベクトル（日本語項ベクトル）を学習モデル９６に入力した際の出力が、共通文のベクトルに近づくように、誤差逆伝播による学習を実行する。学習部２５２は、学習データ９５に含まれる項のベクトルと、共通文のベクトルとの関係を基にして、上記処理を繰り返し実行することで、学習モデル９６のパラメータを調整する（機械学習を実行する）。

　翻訳部２５３は、分析クエリ９７を受信した場合に、分析クエリ９７に含まれる項の翻訳を実行する。翻訳部２５３は、入力部２２０または通信部２１０から、分析クエリ９７を受け付け、記憶部２４０に記憶する。以下において、翻訳部２５３の処理の一例について説明する。

　翻訳部２５３は、分析クエリ９７に含まれる日本語の項のテキストデータに対して形態素解析を実行し、テキストデータを複数の単語に分割する。翻訳部２５３は、テキストデータに含まれる単語と、辞書情報２４４とを基にして、単語のベクトルを特定する。翻訳部２５３は、各単語のベクトルを積算することで、各文のベクトルを算出する。翻訳部２５３は、各文のベクトルを積算することで、項（分析クエリ９７）のベクトルを算出する。

　翻訳部２５３は、分析クエリ９７のベクトルを、学習モデル９６に入力することで、分析クエリ９７に対応する共通文のベクトルを算出する。また、翻訳部２５３は、分析クエリ９７のベクトルと、代替項ベクトルテーブルＴ１に含まれる各代替項のベクトルとを比較して、分析クエリ９７のベクトルに類似する、代替項のベクトルを特定する。以下の説明では、分析クエリ９７のベクトルに類似する、代替項のベクトルを「類似ベクトル」と表記する。

　翻訳部２５３は、類似ベクトルと、日本語項転置インデックス２４３ｃとを比較して、類似ベクトルの項のオフセットを特定する。翻訳部２５３は、特定した項のオフセットと、日本語文転置インデックス１４３ｅとを基にして、類似ベクトルの項に含まれる文のオフセットの範囲を絞り込み、絞り込んだオフセットの範囲に含まれる日本語文ベクトルと、共通文のベクトルとを比較して、類似する日本語文ベクトルを特定する。以下の説明では、共通文のベクトルに類似する日本語文ベクトルを「類似日本語文ベクトル」と表記する。

　たとえば、日本語文転置インデックス１４３ｅに含まれる各日本語文ベクトルと、英語文転置インデックス１４３ｆに含まれる各英語文ベクトルとの対応関係が定義された定義テーブルが設定されているものとする。翻訳部２５３は、かかる定義テーブルを基にして、類似日本語文ベクトルに対応する英語文ベクトルを特定する。以下の説明では、類似日本語文ベクトルに類似する英語文ベクトルを「類似英語文ベクトル」と表記する。

　翻訳部２５３は、類似英語文ベクトルと、英語文転置インデックス２４３ｆとを比較して、類似英語文ベクトルの文のオフセットを特定する。翻訳部２５３は、特定したオフセットを基にして、圧縮ファイルテーブル２４２の英語文章圧縮ファイルから、符号化された英語文の情報（符号化配列）を取得する。

　翻訳部２５３は、符号化された文の情報（符号化配列）と、辞書情報２４４とを基にして、符号化された文の情報を復号することで、翻訳結果の情報を生成する。翻訳部２５３は、翻訳結果の情報を、表示部２３０に表示させる。また、翻訳結果の情報を、分析クエリ９７の送信元となる外部装置に送信してもよい。

　次に、本実施例２に係る情報処理装置２００の処理手順の一例について説明する。図１８は、本実施例２に係る情報処理装置の学習フェーズの処理を示すフローチャートである。図１８に示すように、情報処理装置２００の前処理部２５１は、対訳テーブル２４１を基にして、前処理を実行し、圧縮ファイルテーブル２４２、転置インデックステーブル２４３、学習データ９５を生成する（ステップＳ３０１）。

　情報処理装置２００の学習部２５２は、学習データ９５を基にして、学習モデル９６の機械学習を実行する（ステップＳ３０２）。

　図１９は、本実施例２に係る情報処理装置の分析フェーズの処理を示すフローチャートである。図１９に示すように、情報処理装置２００の翻訳部２５３は、分析クエリ９７を受け付け、記憶部２４０に記憶する（ステップＳ４０１）。

　翻訳部２５３は、分析クエリ９７のベクトルを算出する（ステップＳ４０２）。翻訳部２５３は、分析クエリ９７のベクトルを学習モデル９６に入力することで、共通文のベクトルを算出する（ステップＳ４０３）。

　翻訳部２５３は、分析クエリ９７のベクトルと、代替項ベクトルテーブルＴ１の各日本語項ベクトルとを比較して、類似ベクトルを特定する（ステップＳ４０４）。翻訳部２５３は、代替項ベクトルをもとに、類似ベクトルと再翻訳文のベクトルを算出し、共通文のベクトル、日本語項転置インデックス１４３ｃ、日本語文転置インデックス１４３ｅを基にして、類似日本語文ベクトルを特定する（ステップＳ４０５）。

　翻訳部２５３は、共通文のベクトルや再翻訳文のベクトルを用いて、類似日本語文ベクトルに対応する類似英語文ベクトルを特定する（ステップＳ４０６）。翻訳部２５３は、類似英語文ベクトルと、英語文転置インデックス１４３ｆとを基にして、オフセットを特定し、英語文章圧縮ファイルから、英語文の符号配列を取得する（ステップＳ４０７）。

　翻訳部２５３は、符号配列と辞書情報２４４とを基にして、各文の符号配列に対する復号や変換を実行する（ステップＳ４０８）。翻訳部２５３は、翻訳結果を出力する（ステップＳ４０９）。

　次に、本実施例２に係る情報処理装置２００の効果について説明する。情報処理装置２００は、学習済みの学習モデル９６に分析クエリ９７のベクトルを入力し、分析クエリ９７の項に対応する共通文のベクトルを算出する。また、分析クエリ９７のベクトルを基にして、類似する代替項のベクトルを特定する。これによって、分析クエリ９７の項と類似する代替項であって、かかる代替項と分析クエリ９７の項とで共通する共通文のベクトルを算出することができる。算出した共通文のベクトルを用いることで、分析クエリ９７の項と類似する代替項の共通文や、かかる共通文に関連付けられた英訳文を抽出することができる。

　また、情報処理装置は、共通文のベクトルと再翻訳文のベクトルとの関係を共通文・再翻訳文テーブル９８に登録する。代替項を構成する各文のベクトルと共通文のベクトルとを比較し減算することで、再翻訳のベクトルを算出する。上記の共通文のベクトルや、再翻訳文のベクトルを用いることで、機械翻訳の流用や再翻訳、および合成のため、より高精度な再翻訳のベクトルを容易に分析することができる。

　なお、機械翻訳の流用や再翻訳、および再合成のそれぞれの機能は、複数の項に分解された、新聞の社説や雑誌の記事の編集や、論文の推敲などに、適用拡大することができる。

　次に、上記実施例に示した情報処理装置１００（２００）と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図２０は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

　図２０に示すように、コンピュータ３００は、各種演算処理を実行するＣＰＵ３０１と、ユーザからのデータの入力を受け付ける入力装置３０２と、ディスプレイ３０３とを有する。また、コンピュータ３００は、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行う通信装置３０４と、インタフェース装置３０５とを有する。また、コンピュータ３００は、各種情報を一時記憶するＲＡＭ３０６と、ハードディスク装置３０７とを有する。そして、各装置３０１～３０７は、バス３０８に接続される。

　ハードディスク装置３０７は、前処理プログラム３０７ａ、学習プログラム３０７ｂ、翻訳プログラム３０７ｃを有する。また、ＣＰＵ３０１は、各プログラム３０７ａ～３０７ｃを読み出してＲＡＭ３０６に展開する。

　前処理プログラム３０７ａは、前処理プロセス３０６ａとして機能する。学習プログラム３０７ｂは、学習プロセス３０６ｂとして機能する。翻訳プログラム３０７ｃは、翻訳プロセス３０６ｃとして機能する。

　前処理プロセス３０６ａの処理は、前処理部１５１（２５１）の処理に対応する。学習プロセス３０６ｂの処理は、学習部１５２（２５２）の処理に対応する。翻訳プロセス３０６ｂの処理は、翻訳部１５３（２５３）の処理に対応する。

　なお、各プログラム３０７ａ～３０７ｂについては、必ずしも最初からハードディスク装置３０７に記憶させておかなくても良い。例えば、コンピュータ３００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤ、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ３００が各プログラム３０７ａ～３０７ｃを読み出して実行するようにしてもよい。

　１００，２００　　情報処理装置
　１１０，２１０　　通信部
　１２０，２２０　　入力部
　１３０，２３０　　表示部
　１４０，２４０　　記憶部
　１５０，２５０　　制御部

Claims

　翻訳対象の文章に含まれる複数の部分文章の情報及び前記複数の部分文章の順序と、前記翻訳対象の文章の翻訳結果となる文章に含まれる複数の部分翻訳文章の情報及び前記複数の部分翻訳文章の順序との関係を基に学習された翻訳学習モデルを記憶し、
　新たな翻訳対象の第３文章を受け付けると、前記第３文章に含まれる複数の部分文章の情報を特定し、
　特定した複数の部分文章の情報を順に、前記翻訳学習モデルに入力することで、特定した複数の部分文章の情報に対応する、複数の部分翻訳文章の情報の順序を制御する
　処理をコンピュータが実行することを特徴とする翻訳方法。
　前記特定する処理は、翻訳対象の文章の情報と、複数の部分文章の情報との関係を基に学習された分割学習モデルに、前記新たな翻訳対象の文章の情報を入力することで、前記新たな翻訳対象の文章に含まれる複数の部分文章の情報を特定することを特徴とする請求項１に記載の翻訳方法。
　前記翻訳対象の文章に含まれる接続詞を基にして、前記複数の部分文章の開始位置を特定する処理を更に実行することを特徴とする請求項１に記載の翻訳方法。
　前記部分文章の情報および前記部分翻訳文章の情報はベクトルであり、前記制御する処理は、複数の部分文章のベクトルを順に、前記翻訳学習モデルに入力することで、特定した複数の部分文章のベクトルに対応する、複数の部分翻訳文章のベクトルの順序を制御することを特徴とする請求項１に記載の翻訳方法。
　前記部分文章の情報および前記部分翻訳文章に対応する複数のベクトルをクラスタリングすることで、所定数以下のクラスタに分類し、同一のクラスタに属する複数のベクトルを、前記同一のクラスタに応じた一つのベクトルとして利用する処理を更に実行することを特徴とする請求項４に記載の翻訳方法。
　目的文章を構成する複数の部分文章のベクトルと、翻訳候補となる翻訳部分文章のうち、共通する文ベクトルを示す共通文のベクトルとの関係を定義した学習データを基にして、学習モデルの機械学習を実行し、
　部分文章を受け付けた場合、前記部分文章のベクトルを前記学習モデルに入力することで、前記翻訳部分文章に対応する共通文のベクトルを算出する
　処理を実行させることを特徴とする翻訳方法。
　前記部分文章のベクトルと、翻訳候補となる翻訳部分文章のうち、前記共通文のベクトルとを基にして、前記部分文章と、検索した翻訳部分文章の翻訳文とで異なる部分を示す際翻訳文のベクトルを算出する処理を更に実行することを特徴とする請求項６に記載の翻訳方法。
　翻訳対象の文章に含まれる複数の部分文章の情報及び複数の部分文章の順序と、翻訳対象の文章の翻訳結果となる文章に含まれる複数の部分翻訳文章の情報及び複数の部分翻訳文章の順序との関係を基に学習された翻訳学習モデルを記憶し、
　新たな翻訳対象の第３文章を受け付けると、第３文章を部分文章に分解し部分文章の順序を得て、前記学習モデルに入力することで、第３文章の部分翻訳文章とその順序を得て、第３文章の翻訳文章を出力する
　処理をコンピュータが実行することを特徴とする翻訳方法。
　翻訳対象の文章に含まれる複数の部分文章の情報及び前記複数の部分文章の順序と、前記翻訳対象の文章の翻訳結果となる文章に含まれる複数の部分翻訳文章の情報及び前記複数の部分翻訳文章の順序との関係を基に学習された翻訳学習モデルを記憶し、
　新たな翻訳対象の第３文章を受け付けると、前記第３文章に含まれる複数の部分文章の情報を特定し、
　特定した複数の部分文章の情報を順に、前記翻訳学習モデルに入力することで、特定した複数の部分文章の情報に対応する、複数の部分翻訳文章の情報の順序を制御する
　処理をコンピュータが実行させることを特徴とする翻訳プログラム。
　前記特定する処理は、翻訳対象の文章の情報と、複数の部分文章の情報との関係を基に学習された分割学習モデルに、前記新たな翻訳対象の文章の情報を入力することで、前記新たな翻訳対象の文章に含まれる複数の部分文章の情報を特定することを特徴とする請求項９に記載の翻訳プログラム。
　前記翻訳対象の文章に含まれる接続詞を基にして、前記複数の部分文章の開始位置を特定する処理を更に実行することを特徴とする請求項９に記載の翻訳プログラム。
　前記部分文章の情報および前記部分翻訳文章の情報はベクトルであり、前記制御する処理は、複数の部分文章のベクトルを順に、前記翻訳学習モデルに入力することで、特定した複数の部分文章のベクトルに対応する、複数の部分翻訳文章のベクトルの順序を制御することを特徴とする請求項９に記載の翻訳プログラム。
　前記部分文章の情報および前記部分翻訳文章に対応する複数のベクトルをクラスタリングすることで、所定数以下のクラスタに分類し、同一のクラスタに属する複数のベクトルを、前記同一のクラスタに応じた一つのベクトルとして利用する処理を更に実行することを特徴とする請求項１２に記載の翻訳プログラム。
　翻訳対象の文章に含まれる複数の部分文章の情報及び前記複数の部分文章の順序と、前記翻訳対象の文章の翻訳結果となる文章に含まれる複数の部分翻訳文章の情報及び前記複数の部分翻訳文章の順序との関係を基に学習された翻訳学習モデルを記憶する記憶部と、
　新たな翻訳対象の第３文章を受け付けると、前記第３文章に含まれる複数の部分文章の情報を特定し、特定した複数の部分文章の情報を順に、前記翻訳学習モデルに入力することで、特定した複数の部分文章の情報に対応する、複数の部分翻訳文章の情報の順序を制御する翻訳部と、
　を有することを特徴とする情報処理装置。
　前記翻訳部は、翻訳対象の文章の情報と、複数の部分文章の情報との関係を基に学習された分割学習モデルに、前記新たな翻訳対象の文章の情報を入力することで、前記新たな翻訳対象の文章に含まれる複数の部分文章の情報を特定することを特徴とする請求項１４に記載の情報処理装置。
　前記翻訳対象の文章に含まれる接続詞を基にして、前記複数の部分文章の開始位置を特定する前処理部を更に有することを特徴とする請求項１４に記載の情報処理装置。
　前記部分文章の情報および前記部分翻訳文章の情報はベクトルであり、前記翻訳部は、複数の部分文章のベクトルを順に、前記翻訳学習モデルに入力することで、特定した複数の部分文章のベクトルに対応する、複数の部分翻訳文章のベクトルの順序を制御することを特徴とする請求項１４に記載の情報処理装置。
　前記部分文章の情報および前記部分翻訳文章に対応する複数のベクトルをクラスタリングすることで、所定数以下のクラスタに分類する前処理部を更に有し、前記翻訳部は、同一のクラスタに属する複数のベクトルを、前記同一のクラスタに応じた一つのベクトルとして利用することを特徴とする請求項１７に記載の情報処理装置。