WO2021009972A1

WO2021009972A1 - 自然言語処理方法、自然言語処理システム、及び、自然言語処理プログラム

Info

Publication number: WO2021009972A1
Application number: PCT/JP2020/012987
Authority: WO
Inventors: 泰弘梅本
Original assignee: 株式会社モールサービス
Priority date: 2019-07-18
Filing date: 2020-03-24
Publication date: 2021-01-21
Also published as: JPWO2021009972A1

Abstract

新規な自然言語処理を実現することを解決すべき課題とする。　原言語の第１のテキストを含むウェブページの指定を受け付ける受付ステップと、前記第１のテキストに基づく目的言語の第２のテキストを取得する翻訳ステップと、前記第２のテキストの少なくとも一部をクエリとしてスクレイピングを行い、前記目的言語の第３のテキストを取得する収集ステップと、前記第３のテキストを前記第１のテキストの訳文として決定する決定ステップと、をコンピュータのプロセッサに実行させる自然言語処理方法とそのシステム及びプログラムを実現する。

Description

自然言語処理方法、自然言語処理システム、及び、自然言語処理プログラム

　本発明は、自然言語処理方法、自然言語処理システム、及び、自然言語処理プログラムに関する。

　任意の自然言語（原言語）で記述されたテキストを任意の異なる自然言語（目的言語）で記述されたテキストに変換する機械翻訳は、その翻訳プロセスにおいて主体として人間を含まない「機械による翻訳」である。

　「機械による翻訳」は、専門技能に近い翻訳プロセスを一般化し翻訳コストを圧縮した一方、判読容易ではない翻訳文をインターネットウェブ上に氾濫させており、例えば検索エンジン最適化を困難とする要因の１つとなっている。

　そのため、近年の機械翻訳は、翻訳精度の向上のみならず、翻訳プロセスに主体として人間を含み判読容易な意訳文を生成可能な「人間による翻訳」の実現が求められている。

　特許文献１によると、第１の言語の入力文に対しそれぞれ第２の言語の訳文を生成するための、複数個の機械翻訳装置を含む訳文候補生成部と、得られた複数の第２の言語の訳文をそれぞれ起点として、訳文を変形し改良する訳文改良部と、改良された訳文のうちで所定の条件を充足するものを入力文に対する出力文として選択する終了判定部と、を含む機械翻訳システムに関する発明が報告されている。

特許第３９１９７７１号公報

　特許文献１に記載の発明における訳文改良部は、初期候補訳文及び訳文記憶部から読出された訳文との何れか一方を選択するための訳文選択部を含み、直訳度が低く意訳文に近い翻訳文が生成可能であると把握することができる。

　しかしながら「人間による翻訳」を再現するためには、記録された又は改良が加えられた情報だけでなく、人間による創作物としての最新のテキスト／コンテキストを参考とする必要がある。この点において、特許文献１に記載の発明は改善の余地があるといえる。

　本発明は、新規な自然言語処理を実現することを解決すべき課題とする。

　上記課題を解決するために、本発明は、自然言語処理方法であって、原言語の第１のテキストを含むウェブページの指定を受け付ける受付ステップと、前記第１のテキストに基づく目的言語の第２のテキストを取得する翻訳ステップと、前記第２のテキストの少なくとも一部をクエリとしてスクレイピングを行い、前記目的言語の第３のテキストを取得する収集ステップと、前記第３のテキストを前記第１のテキストの訳文として決定する決定ステップと、をコンピュータのプロセッサに実行させることを特徴とする。

　本発明の好ましい形態では、テキストの形態素列を取得する解析ステップと、前記形態素列の分散ベクトルを取得する評価ステップと、前記分散ベクトル間の類似度を決定する判定ステップと、を前記プロセッサに実行させ、前記翻訳ステップは、前記第３のテキストに基づく前記原言語の第４のテキストを取得し、前記解析ステップは、前記第１のテキストの前記形態素列、及び、前記第４のテキストの前記形態素列を取得し、前記評価ステップは、前記第１のテキストの前記分散ベクトル、及び、前記第４のテキストの前記分散ベクトルを取得し、前記決定ステップは、前記判定ステップが決定した前記第１のテキスト及び第４のテキストの前記分散ベクトル間の前記類似度が閾値を超過する場合、前記第３のテキストを前記訳文として決定することを特徴とする。

　本発明の好ましい形態では、前記収集ステップは、前記第１のテキストの前記分散ベクトル、及び、前記第４のテキストの前記分散ベクトルの前記類似度が前記閾値を超過しない場合、前記ウェブページに基づき前記クエリを拡張し、前記スクレイピングを行い、前記第３のテキストを取得することを特徴とする。

　本発明の好ましい形態では、前記評価ステップは、学習済モデルに基づき前記分散ベクトルを取得し、前記学習済モデルは、隠れ層の一部又は出力層が前記分散ベクトルを示すニューラルネットワークモデルであることを特徴とする。

　上記課題を解決するために、本発明は、自然言語処理システムであって、原言語の第１のテキストを含むウェブページの指定を受け付ける受付手段と、前記第１のテキストに基づく目的言語の第２のテキストを取得する翻訳手段と、前記第２のテキストの少なくとも一部をクエリとしてスクレイピングを行い、前記目的言語の第３のテキストを取得する収集手段と、前記第３のテキストを前記第１のテキストの訳文として決定する決定手段と、を有することを特徴とする。

　上記課題を解決するために、本発明は、自然言語処理プログラムであって、コンピュータを、原言語の第１のテキストを含むウェブページの指定を受け付ける受付手段と、前記第１のテキストに基づく目的言語の第２のテキストを取得する翻訳手段と、前記第２のテキストの少なくとも一部をクエリとしてスクレイピングを行い、前記目的言語の第３のテキストを取得する収集手段と、前記第３のテキストを前記第１のテキストの訳文として決定する決定手段と、として機能させることを特徴とする。

　本発明によれば、新規な自然言語処理を実現することができる。

本発明の一実施形態に係るハードウェア構成を示す。本発明の一実施形態に係るブロックダイアグラムを示す。本発明の一実施形態に係るデータベースのブロックダイアグラムを示す。本発明の一実施形態に係るフローチャートを示す。

　本発明の一実施形態に係る自然言語処理システム、自然言語処理方法、及び、自然言語処理プログラムは、図面を交えて、以下で説明される。本発明は以下の一実施形態に限定するものではなく、様々な構成を採用し得る。例として、本発明に係る各手段・各ステップは、その作用効果を実現する上で、電子メールやＳＭＳ等を介したメッセージングや、ＡＰＩを介したデータ入出力等を適宜、行い得る。

　自然言語処理システム、自然言語処理方法、及び、自然言語処理プログラムは、同様の作用効果を奏することができる。また、各手段の作用効果と、同一の名称を冠する各ステップの作用効果と、は同一である。

　自然言語処理プログラムは、非一過性の記録媒体に記憶させてよい。自然言語処理プログラムが記憶された非一過性の記録媒体は、コンピュータ装置に自然言語処理プログラムをインストールするために用いられる。

　《ハードウェア構成》
　図１に示すように、自然言語処理システムは、１以上のサーバ１０と、１以上のキャッシュサーバ２０と、１以上のターミナル３０と、を含む。

　サーバ１０は、コンピュータであり、少なくとも、演算部１１と、主記憶部１２と、補助記憶部１３と、入力部１４と、表示部１５と、通信部１６と、を含む。各部は、サーバ１０に係る各手段の作用効果を実現するために用いられる。

　キャッシュサーバ２０は、コンピュータであり、少なくとも、演算部２１と、主記憶部２２と、補助記憶部２３と、入力部２４と、表示部２５と、通信部２６と、を含む。各部は、キャッシュサーバ２０に係る各手段の作用効果を実現するために用いられる。

　ターミナル３０は、コンピュータであり、少なくとも、演算部３１と、主記憶部３２と、補助記憶部３３と、入力部３４と、表示部３５と、通信部３６と、を含む。各部は、ターミナル３０に係る各手段の作用効果を実現するために用いられる。

　サーバ１０、キャッシュサーバ２０、及び、ターミナル３０は、各通信部とネットワークを介して、相互に接続される。当該ネットワークは、パブリックネットワーク及び／又はプライベートネットワークにより構成され、通信プロトコル等に制限はない。

　サーバ１０、キャッシュサーバ２０、及び、ターミナル３０の各部は、以下で説明される。

　演算部１１、２１及び３１は、ＣＰＵ等の既知のプロセッサを備える。主記憶部１２、２２、及び、３２は、ＲＡＭ等の既知の揮発性デバイスを備える。補助記憶部１３、２３、及び、３３は、フラッシュメモリ等の既知の不揮発性デバイスを備え、ＯＳやプログラムが格納される。補助記憶部１３は、後述のデータベースＤＢ１、ＤＢ２、ＤＢ３、ＤＢ４、ＤＢ５、及び、ＤＢ６の少なくとも一部として機能してよい。入力部１４、２４、及び、３４は、自然言語処理システムのデータ入力等のために用いられる。入力部３４は、キーボードやタッチパネル等の入力デバイスを備える。表示部１５、２５、及び、３５は、自然言語処理システムのデータ表示処理のために用いられ、ディスプレイデバイスやグラフィックコントローラ等を備える。通信部１６、２６、及び、３６は、通信処理のために用いられる。なお、データベースＤＢ１、ＤＢ２、ＤＢ３、ＤＢ４、ＤＢ５、及び、ＤＢ６の少なくとも一部は、サーバ１０と通信可能な外部データベースであってよい。

　サーバ１０、及び、キャッシュサーバ２０は、ワークステーション等の既知の装置構成をとり、表示部１５又は２５を含まない構成としてよい。また、ターミナル３０は、スマートフォンやラップトップ等の既知の装置構成を採用することができる。

　《ブロックダイアグラム》
　図２、及び、図３に示すように、本発明は、データベースＤＢ１、ＤＢ２、ＤＢ３、ＤＢ４、ＤＢ５、及び、ＤＢ６と、サーバ１０と、キャッシュサーバ２０と、ターミナル３０と、が有機的に組み合わされることで実現される。

　データベースＤＢ１は、第１のテキストＴ１、第２のテキストＴ２、第３のテキストＴ３、及び、第４のテキストＴ４のそれぞれを示すテキスト情報１００１が格納される。また、データベースＤＢ１は、第１のテキストＴ１、第２のテキストＴ２、第３のテキストＴ３、及び、第４のテキストＴ４のそれぞれのカテゴリ又は自然言語を示すテキストメタ情報１００２がさらに格納される。また、データベースＤＢ１は、形態素列Ｐ１、Ｐ２、Ｐ３、及び、Ｐ４のそれぞれを示す形態素列情報１００３がさらに格納される。データベースＤＢ１は、分散ベクトルＶ１、Ｖ２、Ｖ３、及び、Ｖ４のそれぞれを示す分散ベクトル情報１００４がさらに格納される。

　データベースＤＢ２は、受付手段１０１により受け付けられたウェブページ０に係る情報が格納される。また、データベースＤＢ２は、ウェブページ０と対応するリンク情報２００１と、ウェブページ０のカテゴリを示すカテゴリ情報２００２と、リンク情報２００１が示す国別コードトップレベルドメインであるドメイン情報２００３と、ウェブページ０に含まれるテキストが示す自然言語を特定するためのランゲージ情報２００４と、がさらに格納される。

　データベースＤＢ３は、受付手段１０１により受け付けられたウェブページ０の情報を有する。また、データベースＤＢ３は、ウェブページ０のスタイルシート情報３００１と、ウェブページ０のスクリプトコードを示すスクリプト情報３００２と、を有する。

　データベースＤＢ４は、ユーザ定義辞書の態様をとり、ワード情報４００１を有する。

　データベースＤＢ５は、後述する学習済モデル１０３１に基づき形態素列の少なくとも一部の分散ベクトルを表すためのボキャブラリ情報５００１を有する。ボキャブラリ情報５００１は、１以上のワードを含む。

　データベースＤＢ６は、スクレイピングに係るクエリを示すクエリ情報６００１と、スクレイピング先である１以上のウェブページ２を示すリンク情報６００２と、を有する。

　サーバ１０は、受付手段１０１、解析手段１０２、評価手段１０３、翻訳手段１０４、収集手段１０５、判定手段１０６、及び、決定手段１０７を少なくとも有する。サーバ１０が有する各手段は、１以上のサーバ１０による分散処理により実現されてよい。サーバ１０が有する各手段は、１以上のサーバ１０のそれぞれが分担するような構成としてもよい。

　受付手段１０１は、ターミナル３０によるウェブページ０の指定を受け付ける。受付手段１０１は、リンク情報２００１、カテゴリ情報２００２、ドメイン情報２００３及びランゲージ情報２００４をデータベースＤＢ２上に格納する。本明細書中の説明における「ウェブページ」は、少なくともウェブページ０、１、及び、２の何れかを指す。また、カテゴリ情報２００２における「カテゴリ」は、ＩＴ、ソフトウェア、及び、ＡＳＰ等を指す。

　解析手段１０２は、テキストを形態素解析し、当該テキストの形態素列を決定し、形態素列をデータベースＤＢ１に格納する。また、解析手段１０２は、サーバ１０及び／又は外部サーバに格納された形態素解析エンジン１０２１を用いる。形態素解析エンジン１０２１は、既知の形態素解析エンジンを指す。本明細書中の説明における「テキスト」は、少なくとも第１のテキストＴ１、第２のテキストＴ２、第３のテキストＴ３、及び、第４のテキストＴ４の何れかを指す。また、本明細書中の説明における「形態素列」は、少なくとも形態素列Ｐ１、Ｐ２、Ｐ３、及び、Ｐ４の何れかを指す。

　評価手段１０３は、形態素列の少なくとも一部に基づき分散ベクトルを決定し、分散ベクトルをデータベースＤＢ１に格納する。また、評価手段１０３は、サーバ１０及び／又は外部サーバに格納された学習済モデル１０３１を用いる。学習済モデル１０３１は、ＣＢｏＷモデル、Ｓｋｉｐ－Ｇｒａｍモデル、ＤｏＢＷモデル、ＰＶ－ＤＭモデル等の既知のニューラルネットワークモデルを指す。学習済モデル１０３１の入力値は、形態素列の少なくとも一部に基づく数値ベクトルであり、解析手段１０２が取得した形態素列の少なくとも一部とボキャブラリとに基づく1以上のｏｎｅ－ｈｏｔベクトルである。学習済モデル１０３１の隠れ層の一部又は出力層は、分散ベクトルを示す。本明細書中の説明における「分散ベクトル」は、少なくとも分散ベクトルＶ１、Ｖ２、Ｖ３、及び、Ｖ４の何れかを指す。なお、形態素列の分散ベクトルは、形態素列を構成する各語句のそれぞれの分散ベクトルに基づいてよい。学習済モデル１０３１に係る学習は、階層的ソフトマックス、ネガティブサンプリング、埋め込みレイヤ等を適用することにより高速化されてよい。
なお、学習済モデル１０３１は、ニューラルネットワークモデルの種別に応じて適宜、単語やその周辺語等を教師値とすることは勿論である。

　翻訳手段１０４は、入力値としての原言語のテキストを出力値としての目的言語のテキストに変換し、目的言語のテキストをデータベースＤＢ１に格納する。また、翻訳手段１０４は、サーバ１０及び／又は外部サーバに格納された翻訳エンジン１０４１を用いる。
翻訳エンジン１０４１は、既知の翻訳エンジンを指す。翻訳エンジン１０４１は、ルールベース又はコーパスベースであってよい。翻訳エンジン１０４１は、統計的機械翻訳又はニューラル機械翻訳に基づいてよい。本明細書中の説明における「原言語」及び「目的言語」は、それぞれ、日本語や英語等の既知の自然言語を指す。なお、「原言語」が本発明に係る自然言語処理の翻訳元言語であるのに対し、「目的言語」が本発明に係る自然言語処理の翻訳先言語であることは勿論である。

　収集手段１０５は、クエリ情報６００１に基づきスクレイピングを行い、テキストを取得し、当該テキストをデータベースＤＢ１に格納する。また、収集手段１０５は、サーバ１０又は外部サーバに格納されたスクレイパ１０５１を用いる。スクレイパ１０５１は、既知のスクレイパを指す。また、収集手段１０５は、入力値としてのテキストに基づき出力値としてのクエリを決定してよい。収集手段１０５は、入力値としてのテキストの一部のフレーズをクエリとして決定してよい。また、収集手段１０５は、ウェブページ上の各種情報及び／又は収集手段１０５が保持するテキストに基づき、クエリを拡張し得る。このとき、収集手段１０５は、入力値としてのテキストの少なくとも一部が示すカテゴリと対応する所定のウェブページ上のテキストに基づき、クエリを拡張し得る。入力値としてのテキストの少なくとも一部と対応するカテゴリと、所定のウェブページを示すリンクは、ユーザ操作等により入力されることで、自然言語処理システムにおける各種データベースの何れかに格納され、適宜、収集手段１０５により参照される。本明細書中の説明における「スクレイピング」の収集対象は、既知のウェブページ上の情報全般であり、テキストだけでなく画像等も含まれる。このとき、収集手段１０５は、当該クエリに基づき、既知の検索エンジンによりスコアリングされた既知のウェブページ上のテキストの内、検索スコアの高いテキストを取得し、当該テキストをデータベースＤＢ１に格納する。当該検索スコアは、テキストやウェブページとクエリとの一致度合いを示し、既知の検索エンジンにより用いられる慣用のスコア全般がその一態様として例示される。収集手段１０５は、クエリに基づき収集対象を決定してもよい。収集手段１０５は、既知の画像解析エンジンと協調しウェブページ上の画像からテキストを推定してよい。収集手段１０５は、ワード情報４００１に基づき、第１のテキストＴ１等のテキストデータに含まれる所定の語句を固有名詞として置き換えするような後処理を単語アラインメントとして行ってよい。

　判定手段１０６は、異なる２つの分散ベクトルを入力値として、分散ベクトル間の類似度３００を出力値として決定する。判定手段１０６は、コサイン類似度、ピアソンの相関係数、偏差パターン類似度、ユークリッド距離、標準ユークリッド距離、マハラノビス距離、マンハッタン距離、ミンコフスキー距離等の既知の類似度指標／距離指標の算出方法に基づき、類似度３００を決定する。

　決定手段１０７は、目的言語のテキストを含むウェブページ１をキャッシュサーバ２０に格納する。このとき、決定手段１０７は、当該テキストを第１のテキストＴ１の訳文として決定する。また、このとき、収集手段１０５は当該テキストを保持してよい。決定手段１０７は、データベースＤＢ２及びＤＢ３上の各種情報の少なくとも一部に基づきウェブページ０上の原言語のテキストを当該テキストに変換する。

　《フローチャート》
　図４が示すように、本発明に係る一連の処理は以下のステップを含む。なお、図３に示される各ステップの順列は一例であり、指定がない限り適宜、当該順列は変更され得る。

　ターミナル３０は、第１のテキストＴ１を含むウェブページ０のＵＲＬの少なくとも一部を指定する（指定ステップＳ１００）。このとき、ターミナル３０は、自然言語処理対象のテキストとして、ウェブページ０上のテキストの少なくとも一部を指定可能であってよい。次に、受付手段１０１は、指定ステップＳ１００による第１のテキストＴ１を含むウェブページ０に係る指定を受け付ける（受付ステップＳ１０１）。

　解析手段１０２は、第１のテキストＴ１の形態素解析を行い第１のテキストＴ１の形態素列Ｐ１を取得する（解析ステップＳ１０２）。このとき、解析手段１０２は、ワード情報４００１に基づき、第１のテキストＴ１等のテキストデータに含まれる所定の語句を固有名詞として置き換えするような前処理を単語アラインメントとして行ってよい。これにより、本発明に係る自然言語処理において、形態素列の決定における精度向上を期待することができる。

　評価手段１０３は、学習済モデル１０３１に基づき入力値としての形態素列Ｐ１と対応する出力値としての分散ベクトルＶ１を取得する（評価ステップＳ１０３）。このとき、評価手段１０３は、形態素列Ｐ１等の形態素列に含まれる名詞、動詞、及び、形容詞のみに基づき分散ベクトルＶ１を決定してよい。これにより、本発明に係る自然言語処理において、分散ベクトルにおけるノイズ除去が容易となる。

　翻訳手段１０４は、原言語の第１のテキストＴ１を入力値として、翻訳エンジン１０４１を介して、出力値としての目的言語の第２のテキストＴ２を取得する（翻訳ステップＳ１０４）。次に、収集手段１０５は、少なくとも第２のテキストＴ２の一部に基づきクエリ情報６００１を決定し、当該クエリ情報６００１に基づくウェブページ２を含むスクレイピング対象に対するスクレイピングを行い、目的言語の第３のテキストＴ３を取得する（収集ステップＳ１０５）。次に、翻訳手段１０４は、翻訳エンジン１０４１を介して、当該目的言語の第３のテキストＴ３を入力値として、原言語の第４のテキストＴ４を出力値として取得する（翻訳ステップＳ１０６）。

　解析手段１０２は、翻訳ステップＳ１０６により決定された原言語の第４のテキストＴ４の形態素解析を行い、第４のテキストＴ４の形態素列Ｐ４を取得する（解析ステップＳ１０７）。次に、評価手段１０３は、学習済モデル１０３１に基づき形態素列Ｐ４の分散ベクトルＶ４を取得する（評価ステップＳ１０８）。

　判定手段１０６は、分散ベクトルＶ１及び分散ベクトルＶ４の類似度３００を取得する（判定ステップＳ１０９）。類似度３００が閾値３０１を超過する場合、決定手段１０７は、第３のテキストＴ３を含むウェブページ１をキャッシュサーバ２０に格納する（決定ステップＳ１１０）。このとき、閾値３０１は任意に設定される値であってよい。類似度３００が閾値３０１を超過しない場合、収集手段１０５は、ウェブページ０に基づきクエリ情報６００１を拡張した上でスクレイピングを行い、目的言語の第３のテキストＴ３を再取得する（収集ステップＳ１０５Ｘ）。

　本発明の一実施形態における自然言語処理システムは、第１のテキストＴ１及びメールアドレスを入力可能なＷｅｂ　ＡＰＩ（以下、「メール翻訳ＡＰＩ」と記す。）の態様をとってよい。メール翻訳ＡＰＩでは、例として、ターミナル３０が第１のテキストＴ１及びメールアドレスをＰＯＳＴする。このとき、受付手段１０１は、ターミナル３０により入力された当該第１のテキストＴ１及びメールアドレスを受け付ける。メール翻訳ＡＰＩでは、ターミナル３０の決定手段１０７により第１のテキストＴ１及びメールアドレスがリクエストとしてＰＯＳＴされることで、サーバ１０により第３のテキストＴ３がレスポンスとして返却される。ここで、当該レスポンスは、当該第３のテキストＴ３をメール本文とするメールにかかる当該メールアドレスを宛先とする送信の態様で実現される。なお、メール翻訳ＡＰＩの態様をとる一実施形態は、他の一実施形態の構成の少なくとも一部を適宜、採用することができる。

　本発明の一実施形態における自然言語処理システムは、第１のテキストＴ１及び第３のテキストＴ３が、それぞれ、リクエスト及びレスポンスとなるような、Ｗｅｂ　ＡＰＩの態様をとる、と把握することができる。

　本発明によると、新規な自然言語処理を実現することができる。

０　　　　　ウェブページ
１　　　　　ウェブページ
２　　　　　ウェブページ
１０　　　　サーバ
１１　　　　演算部
１２　　　　主記憶部
１３　　　　補助記憶部
１４　　　　入力部
１５　　　　表示部
１６　　　　通信部
２０　　　　キャッシュサーバ
２１　　　　演算部
２２　　　　主記憶部
２３　　　　補助記憶部
２４　　　　入力部
２５　　　　表示部
２６　　　　通信部
３０　　　　ターミナル
３１　　　　演算部
３２　　　　主記憶部
３３　　　　補助記憶部
３４　　　　入力部
３５　　　　表示部
３６　　　　通信部
１０１　　　受付手段
１０２　　　解析手段
１０３　　　評価手段
１０４　　　翻訳手段
１０５　　　収集手段
１０６　　　判定手段
１０７　　　決定手段
３００　　　類似度
３０１　　　閾値
１００１　　テキスト情報
１００２　　テキストメタ情報
１００３　　形態素列情報
１００４　　分散ベクトル情報
１０２１　　形態素解析エンジン
１０３１　　学習済モデル
１０４１　　翻訳エンジン
１０５１　　スクレイパ
２００１　　リンク情報
２００２　　カテゴリ情報
２００３　　ドメイン情報
２００４　　ランゲージ情報
３００１　　スタイルシート情報
３００２　　スクリプト情報
４００１　　ワード情報
５００１　　ボキャブラリ情報
６００１　　クエリ情報
６００２　　リンク情報
ＤＢ１　　　データベース
ＤＢ２　　　データベース
ＤＢ３　　　データベース
ＤＢ４　　　データベース
ＤＢ５　　　データベース
ＤＢ６　　　データベース
Ｐ１　　　　形態素列
Ｐ２　　　　形態素列
Ｐ３　　　　形態素列
Ｐ４　　　　形態素列
Ｓ１００　　指定ステップ
Ｓ１０１　　受付ステップ
Ｓ１０２　　解析ステップ
Ｓ１０３　　評価ステップ
Ｓ１０４　　翻訳ステップ
Ｓ１０５　　収集ステップ
Ｓ１０５Ｘ　収集ステップ
Ｓ１０６　　翻訳ステップ
Ｓ１０７　　解析ステップ
Ｓ１０８　　評価ステップ
Ｓ１０９　　判定ステップ
Ｓ１１０　　決定ステップ
Ｔ１　　　　第１のテキスト
Ｔ２　　　　第２のテキスト
Ｔ３　　　　第３のテキスト
Ｔ４　　　　第４のテキスト
Ｖ１　　　　分散ベクトル
Ｖ２　　　　分散ベクトル
Ｖ３　　　　分散ベクトル
Ｖ４　　　　分散ベクトル

Claims

　自然言語処理方法であって、
　原言語の第１のテキストを含むウェブページの指定を受け付ける受付ステップと、
　前記第１のテキストに基づく目的言語の第２のテキストを取得する翻訳ステップと、
　前記第２のテキストの少なくとも一部をクエリとしてスクレイピングを行い、前記目的言語の第３のテキストを取得する収集ステップと、
　前記第３のテキストを前記第１のテキストの訳文として決定する決定ステップと、
　をコンピュータのプロセッサに実行させる自然言語処理方法。
　自然言語処理方法であって、
　テキストの形態素列を取得する解析ステップと、
　前記形態素列の分散ベクトルを取得する評価ステップと、
　前記分散ベクトル間の類似度を決定する判定ステップと、
　を前記プロセッサに実行させ、
　前記翻訳ステップは、前記第３のテキストに基づく前記原言語の第４のテキストを取得し、
　前記解析ステップは、前記第１のテキストの前記形態素列、及び、前記第４のテキストの前記形態素列を取得し、
　前記評価ステップは、前記第１のテキストの前記分散ベクトル、及び、前記第４のテキストの前記分散ベクトルを取得し、
　前記決定ステップは、前記判定ステップが決定した前記第１のテキスト及び第４のテキストの前記分散ベクトル間の前記類似度が閾値を超過する場合、前記第３のテキストを前記訳文として決定する請求項１に記載の自然言語処理方法。
　前記収集ステップは、前記第１のテキストの前記分散ベクトル、及び、前記第４のテキストの前記分散ベクトルの前記類似度が前記閾値を超過しない場合、前記ウェブページに基づき前記クエリを拡張し、前記スクレイピングを行い、前記第３のテキストを取得する請求項２に記載の自然言語処理方法。
　前記評価ステップは、学習済モデルに基づき前記分散ベクトルを取得し、
　前記学習済モデルは、隠れ層の一部又は出力層が前記分散ベクトルを示すニューラルネットワークモデルである請求項２又は３に記載の自然言語処理方法。
　自然言語処理システムであって、
　原言語の第１のテキストを含むウェブページの指定を受け付ける受付手段と、
　前記第１のテキストに基づく目的言語の第２のテキストを取得する翻訳手段と、
　前記第２のテキストの少なくとも一部をクエリとしてスクレイピングを行い、前記目的言語の第３のテキストを取得する収集手段と、
　前記第３のテキストを前記第１のテキストの訳文として決定する決定手段と、を有する自然言語処理システム。
　自然言語処理プログラムであって、コンピュータを、
　原言語の第１のテキストを含むウェブページの指定を受け付ける受付手段と、
　前記第１のテキストに基づく目的言語の第２のテキストを取得する翻訳手段と、
　前記第２のテキストの少なくとも一部をクエリとしてスクレイピングを行い、前記目的言語の第３のテキストを取得する収集手段と、
　前記第３のテキストを前記第１のテキストの訳文として決定する決定手段と、として機能させる自然言語処理プログラム。