JPWO2020021609A1 - 生成方法、生成プログラムおよび情報処理装置 - Google Patents

生成方法、生成プログラムおよび情報処理装置 Download PDF

Info

Publication number
JPWO2020021609A1
JPWO2020021609A1 JP2020531852A JP2020531852A JPWO2020021609A1 JP WO2020021609 A1 JPWO2020021609 A1 JP WO2020021609A1 JP 2020531852 A JP2020531852 A JP 2020531852A JP 2020531852 A JP2020531852 A JP 2020531852A JP WO2020021609 A1 JPWO2020021609 A1 JP WO2020021609A1
Authority
JP
Japan
Prior art keywords
word
meaning
text information
vector
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020531852A
Other languages
English (en)
Other versions
JP7205542B2 (ja
Inventor
片岡 正弘
正弘 片岡
聡 尾上
聡 尾上
浩太 夏目
浩太 夏目
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2020021609A1 publication Critical patent/JPWO2020021609A1/ja
Application granted granted Critical
Publication of JP7205542B2 publication Critical patent/JP7205542B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Mathematical Optimization (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

情報処理装置(100)は、テキスト情報に含まれる複数の単語を抽出する。情報処理装置(100)は、複数の語義を含む単語の語義ごとに、単語に対する他の単語の共起情報を記憶する記憶部を参照して、抽出した複数の単語のうち、複数の語義を含むいずれかの単語に対する他の単語の共起情報に基づき、いずれかの単語の語義を特定する。情報処理装置(100)は、いずれかの単語と、特定した語義を識別する文字とを含む語義追記テキスト情報を生成する。

Description

本発明は、生成方法等に関する。
近年、第1言語を、第1言語とは異なる他の第2言語を翻訳する場合に、ニューラル機械翻訳(NMT:Neural Machine Translation)が用いられている。ニューラル機械翻訳には様々なモデルが存在するが、たとえば、エンコーダ(encoder)、リカレントネットワーク(RNN:Recurrent Neural Network)、デコーダ(decoder)から構成されるモデルがある。
エンコーダは、入力文の文字列を単語に符号化し、その単語にベクトルを割り当てる処理部である。RNNは、エンコーダから入力される単語とそのベクトルを、自身のパラメータに基づいて変換し、変換したベクトルとその単語を出力するものである。デコーダは、RNNから出力されるベクトルと単語を基にして、出力文を復号化する処理部である。
従来技術では、教師データを用いて、第1言語の入力文から適切な第2言語の出力文が出力されるように、RNNのパラメータを学習する。RNNのパラメータには、活性化関数のバイアス値や、重みが含まれる。たとえば、従来技術では、学習データとして、第1言語の入力文「She drinks cool juice.」と第2言語の出力文「彼女は冷たいジュースを飲む。」との組を与え、RNNのパラメータを学習する。
ところで、文に含まれる単語は、複数の語義を持ち、文脈に応じて異なる語義を取るため、ある単語が、対象文中でどのような語義を取っているのかを推定する従来技術がある。この従来技術では、コーパスから例文を含む文章を抽出し、抽出した文章に、任意の単語のある語義に対応するタグ情報を付して、出力する。
特開2012−141679号公報 特表2017−511914号公報 特開2013−20431号公報
しかしながら、上述した従来技術では、テキスト情報の翻訳精度を高めることができないという問題がある。
ニューラル機械翻訳のエンコーダでは、入力文に含まれる各単語を、分散表現と呼ばれる数百次元からなるベクトルに変換する作業が行われる。この作業は、英語や日本語などの言語への依存を軽減するため、「embedding」と呼ばれる。従来技術では、embeddingを行う場合に、単語の語義を区別しない。たとえば、「She drinks cool juice.」の「cool」と、「He likes cool think.」の「cool」とは語義が異なっている。ここでは、各「cool」を区別するため、便宜的に、「She drinks cool juice.」の「cool」を「cool(1)」と表記する。「He likes cool think.」の「cool」を「cool(2)」と表記する。
ここで、従来技術のembeddingでは、「cool(1)」および「cool(2)」を、Word2Vecで一つの同じベクトルに変換している。このため、従来技術では、「cool(1)」および「cool(2)」の語義の違いを、区別せずに、RNNの機械学習を実行するため、複数の語義を含む単語に対し、適切にパラメータを学習することが難しい。このため、入力文に複数の語義を含む単語が存在すると、適切な出力文に翻訳されず、翻訳精度が低下する。
なお、Word2Vecにより、単語の語義に応じたベクトルを算出するためには、テキストを形態素解析し、単語とその語義を区別できる情報を含み、かつ、分かち書きしたデータが必要である。そのため、Word2Vecは、単語にタグ情報が付与されているデータであっても、単語の語義に応じたベクトルを算出することはできない。
1つの側面では、本発明は、単語の語義に応じたベクトルを生成することができ、また、テキスト情報の翻訳精度を高めることができる生成方法、生成プログラムおよび情報処理装置を提供することを目的とする。
第1の案では、コンピュータに次の処理を実行させる。コンピュータは、テキスト情報を受け付ける。コンピュータは、受け付けたテキスト情報に含まれる複数の単語を抽出する。コンピュータは、複数の語義を含む単語の語義ごとに、単語に対する他の単語の共起情報を記憶する記憶部を参照して、抽出した複数の単語のうち、複数の語義を含むいずれかの単語に対する他の単語の共起情報に基づき、いずれかの単語の語義を特定する。コンピュータは、いずれかの単語と、特定した語義を識別する文字とを含む語義追記テキスト情報を生成する。
1つの態様によれば、単語の語義に応じたベクトルを生成することができる。また、1つの態様によれば、テキスト情報の翻訳精度を高めることができる。
図1は、本実施例に係る情報処理装置の処理を説明するための図(1)である。 図2は、単語のベクトルを生成する処理を説明するための図である。 図3は、本実施例に係る情報処理装置の処理を説明するための図(2)である。 図4は、本実施例に係る情報処理装置の処理を説明するための図(3)である。 図5は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。 図6は、本実施例に係る第1ベクトルテーブルのデータ構造の一例を示す図である。 図7は、本実施例に係る第2ベクトルテーブルのデータ構造の一例を示す図である。 図8は、本実施例に係る教師データテーブルのデータ構造の一例を示す図である。 図9は、本実施例に係るRNNデータのデータ構造の一例を示す図である。 図10は、中間層のパラメータを補足説明するための図である。 図11は、本実施例に係る情報処理装置の学習処理の処理手順を示すフローチャートである。 図12は、語義追記処理の処理手順を示すフローチャートである。 図13は、本実施例に係る情報処理装置の翻訳処理の処理手順を示すフローチャートである。 図14は、本実施例に係る情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
以下に、本発明にかかる生成方法、生成プログラムおよび情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
図1〜図3は、本実施例に係る情報処理装置の処理を説明するための図である。本実施例に係る情報処理装置は、入力文10が与えられると、形態素解析を実行することで、入力文10に含まれる文字列を単語毎に分割し、分割入力文10aを生成する。たとえば、分割入力文10aにおいて、各単語は「△(スペース)」で区切られる。
たとえば、入力文10の「She drinks cool juice.」に対応する分割入力文10aには、単語「She△」、「drinks△」、「cool△」「juice△」が含まれる。入力文10の「彼女は冷たいジュースを飲む。」に対応する分割入力文10aには、単語「彼女△」、「は△」、「冷たい△」、「ジュース△」、「を△」、「飲む△」が含まれる。入力文10の「He has cool think.」に対応する分割入力文10aには、単語「He△」、「has△」、「cool△」、「think△」が含まれる。入力文10の「彼は冷静な考えを持っている。」に対応する分割入力文10aには、単語「彼△」、「は△」、「冷静な△」、「考え△」、「を△」、「持って△」、「いる△」が含まれる。
情報処理装置は、分割入力文10aの各単語と、語義HMM(Hidden Markov Model)150aとを比較して、多義語となる単語を特定し、多義語となる単語の語義(語義ID)を特定する。以下の説明では、分割入力文10aに含まれる多義語となる単語を「対象単語」と表記する。語義HMM150aは、多義語と、語義IDと、複数の共起単語(共起率)とを対応付ける。
語義HMM150aの多義語は、複数の語義を有する単語を示す。語義IDは、多義語に含まれる語義を一意に識別する情報である。共起単語は、ある語義の多義語と共起する単語を示す。本実施例では説明の便宜上、語義IDを、括弧付きの数字で表すが、括弧は便宜的に記載するものであり、実際には語義IDを識別可能な数字のみ付与されるものとする。共起単語は、共起率と対応付けられる。たとえば、多義語「cool」が語義ID「(1)」により識別される語義で用いられる場合には、係る「cool」の前後で「juice」が共起する可能性が「10%」である旨が示されている。図示を省略するが、語義ID「(1)」により識別される「cool」の語義は、「冷たい」である。
多義語「cool」が語義ID「(2)」により識別される語義で用いられる場合には、係る「cool」の前後で「think」が共起する可能性が「11%」である旨が示される。図示を省略するが、語義ID「(2)」により識別される「cool」の語義は、「冷静な」である。
情報処理装置は、多義語となる対象単語を特定すると、対象単語に語義IDを追記することで、語義追記入力文10bを生成する。たとえば、情報処理装置は、分割入力文10aの「She△drinks△cool△juice△.」と、語義HMM150aとの比較により、「cool△」が、対象単語であると判定する。また、情報処理装置は、分割入力文10aの前に「juice」が含まれているため、対象単語「cool」の語義IDが「(1)」であると判定する。このため、情報処理装置は、対象単語「cool△」に、語義ID「(1)」を追記することで、語義追記入力文10b「She△drinks△cool(1)△juice.」を生成する。
情報処理装置は、分割入力文10aの「He has cool think.」と、語義HMM150aとの比較により、「cool△」が、対象単語であると判定する。また、情報処理装置は、分割入力文10aの後に「think」が含まれているため、対象単語「cool」の語義IDが「(2)」であると判定する。このため、情報処理装置は、対象単語「cool△」に、語義ID「(2)」を追記することで、語義追記入力文10b「She△drinks△cool(2)△juice△.」を生成する。
図2は、単語のベクトルを生成する処理を説明するための図である。ここでは、一例として、「cool(1)△」、「cool(2)△」に割り当てられるベクトルについて説明する。情報処理装置は、ハッシュフィルタ15と、ベクトルテーブル16とを用いて、単語に割り当てるベクトルを特定する。ハッシュフィルタ15は、ハッシュ値と、ベクトルテーブル16へのポインタとを対応付けるフィルタである。ベクトルテーブル16の各領域には、ベクトルが格納される。
たとえば、情報処理装置は、「cool(1)△」のハッシュ値を算出し、「cool(1)△」のハッシュ値に対応するポインタ15aを特定する。情報処理装置は、ポインタ15aに示されるベクトル「Vec1−1」を、「cool(1)△」のベクトルとして割り当てる。情報処理装置は、「cool(2)△」のハッシュ値を算出し、「cool(2)△」のハッシュ値に対応するポインタ15bを特定する。情報処理装置は、ポインタ15bに示されるベクトル「Vec1−2」を、「cool(2)△」のベクトルとして割り当てる。このようにして、単語に語義IDが追記されていることにより、それぞれ異なるベクトルが割り当てられることになる。
図3の説明に移行する。本実施例に係る情報処理装置は、ニューラル機械翻訳を行うために、エンコーダ50と、リカレントニューラルネットワーク(RNN)60と、デコーダ70とを有する。エンコーダ50に第1言語の入力文から生成した語義追記入力文を入力することで、RNN60を介して、デコーダ70から第2言語の出力文が出力される。
エンコーダ50は、語義追記入力文10bの各単語にベクトルを割り当てる処理部である。たとえば、エンコーダ50は、第1ベクトルテーブル150bと、単語とを比較して、単語を第1ベクトルに変換する。第1ベクトルテーブル150bは、単語と第1ベクトルとを対応付けるテーブルである。第1ベクトルは、分散表現(distributed representation)に対応する情報である。エンコーダ50は、変換した各第1ベクトルを、RNN60に出力する。
たとえば、エンコーダ50は、単語52−1〜52−nの各第1ベクトルを、中間層61−1〜61−nにそれぞれ入力する。
RNN60は、中間層(隠れ層)61−1〜61−n,63−1〜63−nと、変換機構62とを有する。中間層61−1〜61−n,63−1〜63−nは、自身に設定されたパラメータと、入力されたベクトルとを基にして値を算出し、算出した値を出力するものである。
中間層61−1は、静的符号53−1の第1ベクトルの入力を受け付け、受け付けたベクトルと、自身に設定されたパラメータとを基にして、値を算出し、算出した値を、変換機構62に出力する。中間層61−2〜61−nも同様にして、対応する静的符号の第1ベクトルの入力を受け付け、受け付けたベクトルと、自身に設定されたパラメータとを基にして、値を算出し、算出した値を、変換機構62に出力する。
変換機構62は、中間層61−1〜61−nから入力される各値と、デコーダ70等の内部状態を判断材料として、次の単語を訳出する際に注目すべき箇所を判断する役割を担う。たとえば、中間層61−1の値に着目する確率が0.2、中間層61−2に着目する確率が0.3等となり、各確率を全て足した合計値が1になるように正規化されている。
変換機構62は、中間層61−1〜61−nから出力される値と、各アテンション(確率)とを乗算した値を、足し合わせることで、分散表現の重み付き和を計算する。これを、コンテキストベクトル(context vector)と呼ぶ。変換機構62は、コンテキストベクトルを、中間層63−1〜63−nに入力する。中間層63−1〜63−nに入力される各コンテキストベクトルを算出する際に用いられる確率はそれぞれ再計算され、注目すべき箇所が毎回変化する。
中間層63−1は、変換機構62からコンテキストベクトルを受け付け、受け付けたコンテキストベクトルと、自身に設定されたパラメータとを基にして、値を算出し、算出した値を、デコーダ70に出力する。中間層63−2〜63−nも同様にして、対応するコンテキストベクトルを受け付け、受け付けたベクトルと、自身に設定されたパラメータとを基にして、値を算出し、算出した値を、デコーダ70に出力する。
デコーダ70は、中間層63−1〜63−nから出力される値(第2ベクトル)と、第2ベクトルテーブル150cとを比較して、第2ベクトルを単語に変換する。第2ベクトルテーブル150cは、単語と第2ベクトルとを対応付けるテーブルである。第2ベクトルは、分散表現に対応する情報である。
デコーダ70は、中間層63−1から出力される第2ベクトルと、第2ベクトルテーブル150cとを比較して、単語72−1を生成する。同様にして、デコーダ70は、中間層63−2〜63−nから出力される各第2ベクトルと、第2ベクトルテーブル150cとを比較して、単語72−2〜71−nを生成する。デコーダ70は、各単語72−1〜72−nをまとめることで、出力文20を生成する。出力文20は、入力文を翻訳したテキスト情報である。
ここで、本実施例に係る情報処理装置は、RNN60のパラメータを学習する場合に、教師データとなる第1言語の入力文と、第2言語の出力文との組を受け付ける。本実施例では、第1言語を英語とし、第2言語を日本語として説明を行うが、これに限定されるものではない。情報処理装置は、教師データの入力文を、語義追記入力文10bに変換し、エンコーダ50に入力した場合に、教師データの出力文がデコーダ70から出力されるように、RNN60のパラメータを学習する。
図4の説明に移行する。図4に示す例では、教師データとして、入力文「She drinks cool juice.」、出力文「彼女は冷たいジュースを飲む。」を用いる。情報処理装置は、教師データ「She drinks cool juice.」を基にして、下記の様な処理を行い、RNN60の各中間層61−1〜61−nに入力する各第1ベクトルを算出する。情報処理装置は、図1で説明した処理を実行して、入力文「She drinks cool juice.」を、語義追記入力文10b「She△drinks△cool△juice△.」に変換する。
情報処理装置は、語義追記入力文10bの単語「She△」と、第1ベクトルテーブル150bとを基にして、「She△」の第1ベクトルを特定し、中間層61−1に入力する第1ベクトルとする。
情報処理装置は、語義追記入力文10bの単語「drinks△」と、第1ベクトルテーブル150bとを基にして、「drinks△」の第1ベクトルを特定し、中間層61−2に入力する第1ベクトルとする。
情報処理装置は、語義追記入力文10cの単語「cool(1)△」と、第1ベクトルテーブル150bとを基にして、「cool(1)△」の第1ベクトルを特定し、中間層61−3に入力する第1ベクトルとする。
情報処理装置は、語義追記入力文10cの単語「juice△」と、第1ベクトルテーブル150bとを基にして、「juice△」の第1ベクトルを特定し、中間層61−4に入力する第1ベクトルとする。
続いて、情報処理装置は、教師データの出力文「彼女は冷たいジュースを飲む。」を基にして、下記のような処理を行い、RNN60の各中間層63−1〜63−nから出力される、「最適な第2ベクトル」を算出する。情報処理装置は、図1で説明した処理と同様にして、出力文「彼女は冷たいジュースを飲む。」を、語義追記出力文20b「彼女△は△冷たい△ジュース△を△飲む△。」に変換する。ここでは一例として、出力文「彼女は冷たいジュースを飲む。」に多義語が含まれないものとする。
情報処理装置は、語義追記出力文20bの単語「彼女△」と、第2ベクトルテーブル150cとを基にして、「彼女△」の第2ベクトルを特定し、特定した第2ベクトルを、中間層63−1から出力される理想的な第2ベクトルの値とする。
情報処理装置は、語義追記出力文20bの単語「は△」と、第2ベクトルテーブル150cとを基にして、「は△」の第2ベクトルを特定し、特定した第2ベクトルを、中間層63−2から出力される理想的な第2ベクトルの値とする。
情報処理装置は、語義追記出力文20bの単語「冷たい△」と、第2ベクトルテーブル150cとを基にして、「冷たい△」の第2ベクトルを特定し、特定した第2ベクトルを、中間層63−3から出力される理想的な第2ベクトルの値とする。
情報処理装置は、語義追記出力文20bの単語「ジュース△」と、第2ベクトルテーブル150cとを基にして、「ジュース△」の第2ベクトルを特定し、特定した第2ベクトルを、中間層63−4から出力される理想的な第2ベクトルの値とする。
情報処理装置は、語義追記出力文20bの単語「を△」と、第2ベクトルテーブル150cとを基にして、「を△」の第2ベクトルを特定し、特定した第2ベクトルを、中間層63−5から出力される理想的な第2ベクトルの値とする。
情報処理装置は、語義追記出力文20bの単語「飲む△」と、第2ベクトルテーブル150cとを基にして、「飲む△」の第2ベクトルを特定し、特定した第2ベクトルを、中間層63−6から出力される理想的な第2ベクトルの値とする。
上記のように、情報処理装置は、教師データを用いて、RNN60の各中間層61−1〜61−nに入力する各第1ベクトルと、RNN60の各中間層63−1〜63−nから出力される理想的な第2ベクトルとを特定する。情報処理装置は、特定した各第1ベクトルを、RNN60の各中間層61−1〜61−nに入力したことにより、各中間層63−1〜63−nから出力される第2ベクトルが、理想的な第2ベクトルに近づくように、RNN60のパラメータを調整する処理を実行する。
ここで、本実施例に係る情報処理装置は、教師データを取得すると、教師データと語義HMM150aとを基にして、教師データに多義語(対象単語)が含まれるか否かを判定する。情報処理装置は、対象単語が含まれる場合には、対象単語の語義IDを特定し、対象単語と語義IDとの組を一つの単語としたテキスト情報(語義追記入力文、語義追記出力文)を生成する。情報処理装置は、かかる語義追記入力文、語義追記出力文を用いて、RNN60のパラメータを学習する。本実施例では、対象単語と語義IDとの組を一つの単語とみなし、ベクトルに変換するため、単語の語義を区別可能な状態で学習を行うことができる。これにより、テキスト情報の翻訳精度を高めることができる。
次に、本実施例に係る情報処理装置の構成について説明する。図5は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。図5に示すように、この情報処理装置100は、通信部110と、入力部120と、表示部130と、記憶部150と、制御部160とを有する。
通信部110は、ネットワークを介して外部装置とデータ通信を実行する処理部である。通信部110は、通信装置の一例である。たとえば、情報処理装置100は、ネットワークを介して、外部装置に接続し、外部装置から、教師データテーブル150d等を受信してもよい。
入力部120は、情報処理装置100に各種の情報を入力するための入力装置である。たとえば、入力部120は、キーボードやマウス、タッチパネル等に対応する。
表示部130は、制御部160から出力される各種の情報を表示するための表示装置である。たとえば、表示部130は、液晶ディスプレイやタッチパネル等に対応する。
記憶部150は、語義HMM150a、第1ベクトルテーブル150b、第2ベクトルテーブル150c、教師データテーブル150dを有する。また、記憶部150は、RNNデータ150g、入力文データ150h、出力文データ150iを有する。記憶部150は、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子や、HDD(Hard Disk Drive)などの記憶装置に対応する。
語義HMM150aは、多義語と、語義IDと、複数の共起単語(共起率)とを対応付ける情報である。語義HMM150aのデータ構造は、図1に示した語義HMM150aのデータ構造に対応する。
第1ベクトルテーブル150bは、第1言語の単語と、第1ベクトルとを対応付けるテーブルである。第1ベクトルは語義ベクトルの一例である。図6は、本実施例に係る第1ベクトルテーブルのデータ構造の一例を示す図である。図6に示すように、この第1ベクトルテーブル150bは、第1言語の単語と、第1ベクトルとを対応付ける。たとえば、第1言語の単語「cool(1)」は、第1ベクトル「Ve1−1」に対応付けられる。第1ベクトルは、分散表現に対応する情報である。
第2ベクトルテーブル150cは、第2言語の単語と、第2ベクトルを対応付けるテーブルである。第2ベクトルは語義ベクトルの一例である。図7は、本実施例に係る第2ベクトルテーブルのデータ構造の一例を示す図である。図7に示すように、この第2ベクトルテーブル150cは、第2言語の単語と、第2ベクトルとを対応付ける。たとえば、第2言語の単語「冷たい」は、第2ベクトル「Ve2−1」に対応付けられる。第2ベクトルは、分散表現に対応する情報である。
教師データテーブル150dは、教師データとなる、入力文と出力文との組を保持するテーブルである。図8は、本実施例に係る教師データテーブルのデータ構造の一例を示す図である。図8に示すように、この教師データテーブル150dは、入力文と、出力文とを対応付ける。たとえば、第1言語で記載された入力文「She drinks cool juice.」を第2言語に翻訳した場合の適切な出力文は「彼女は冷たいジュースを飲む。」であることが、教師データにより示される。
RNNデータ150gは、図3、4で説明したRNN60の各中間層に設定されるパラメータ等を保持するテーブルである。図9は、本実施例に係るRNNデータのデータ構造の一例を示す図である。図9に示すように、このRNNデータ150gは、RNN識別情報と、パラメータとを対応付ける。RNN識別情報は、RNN60の中間層を一意に識別する情報である。パラメータは、該当する中間層に設定されるパラメータを示すものである。パラメータは、中間層に設定される活性化関数のバイアス値や、重み等に対応する。
図10は、中間層のパラメータを補足説明するための図である。図10には、入力層「x」と、中間層(隠れ層)「h」と、出力層「y」とを有する。中間層「h」は、図3等に示した中間層61−1〜61−n、63−1〜63−nに対応するものである。
中間層「h」と入力層「x」との関係は、活性化関数fを用いて、式(1)により定義される。式(1)のW、Wは、教師データによる学習により、最適な値に調整される重みである。tは時刻(何単語読んだか)を示す。
Figure 2020021609
中間層「h」と出力層「y」との関係は、活性化関数gを用いて、式(2)により定義される。式(2)のW2は、教師データによる学習により、最適な値に調整される重みである。なお、活性化関数gとして、softmax関数を用いてもよい。
Figure 2020021609
入力文データ150hは、翻訳対象となる入力文のデータである。たとえば、入力文データ150hは、第1言語で記載された「She drinks cool juice.」等とする。
出力文データ150iは、入力文データ150hを翻訳することにより得られるデータである。たとえば、入力文データが「She drinks cool juice.」であって、RNNデータ150gのパラメータが適切に学習されている場合には、出力文データは「彼女は冷たいジュースを飲む。」となる。
制御部160は、受付部160a、語義特定部160b、語義追記テキスト生成部160c、語義ベクトル特定部160d、学習部160e、変換部160f、テキスト生成部160g、通知部160hを有する。制御部160は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などによって実現できる。また、制御部160は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などのハードワイヤードロジックによっても実現できる。たとえば、エンコーダ50、RNN60、デコーダ70の処理は、制御部160により実現されるものとする。
まず、本実施例に係る情報処理装置100が、RNN60のパラメータとなるRNNデータ150gを学習する場合の処理について説明する。RNNデータ150gを学習する場合には、制御部160の各処理部のうち、受付部160a、語義特定部160b、語義追記テキスト生成部160c、語義ベクトル特定部160d、学習部160eが動作する。
受付部160aは、外部装置からネットワークを介して、教師データテーブル150dを受け付ける。受付部160aは、受け付けた教師データテーブル150dを、記憶部150に格納する。受付部160aは、入力部120から、教師データテーブル150dを受け付けてもよい。
語義特定部160bは、語義HMM150aを基にして、教師データテーブル150dに含まれる入力文の単語の語義を特定する。語義特定部160bは、教師データテーブル150dの入力文を形態素解析することで、入力文を複数の単語に分割し、分割入力文を生成する。たとえば、語義特定部160bは、「She drinks cool juice.」を基にして、分割入力文「She△drinks△cool△juice.」を生成する。分割入力文は、「△(スペース)」より、各単語が区分される。
語義特定部160bは、分割入力文の各単語と、語義HMM150aとを比較して、対象単語を特定する。また、語義特定部160bは、分割入力文に含まれる対象単語の前後の単語と、語義HMM150aとを比較して、対象単語の語義IDを特定する。たとえば、分割入力文「She△drinks△cool△juice△.」には、対象単語「cool△」が含まれ、この対象単語の語義IDは「(1)」である。
語義特定部160bは、教師データテーブル150dの出力文についても、出力文を形態素解析することで、出力文を複数の単語に分割し、分割出力文を生成する。たとえば、語義特定部160bは、「彼女は冷たいジュースを飲む。」を基にして、分割出力文「彼女△は△冷たい△ジュース△を△飲む△。」を生成する。
語義特定部160bは、分割出力文の各単語と、語義HMM150aとを比較して、対象単語を特定する。また、語義特定部160bは、分割出力文に含まれる対象単語の前後の単語と、語義HMM150aとを比較して、対象単語の語義IDを特定する。なお、分割出力文「彼女△は△冷たい△ジュース△を△飲む△。」には、対象単語が含まれていないものとする。
語義特定部160bは、入力文および出力文の語義特定結果を、語義追記テキスト生成部160cに出力する。語義特定結果には、分割入力文、分割入力文中の対象単語、分割入力文中の対象単語の語義IDが含まれる。また、語義特定結果には、分割出力文、分割出力文中の対象単語、分割出力文中の対象単語の語義IDが含まれる。対象単語が含まれていない場合には、対象単語、語義IDに関する情報がブランクとなる。
語義追記テキスト生成部160cは、語義特定部160bから取得する語義特定結果を基にして、対象単語に語義IDを追記したテキスト情報を生成する処理部である。語義追記テキスト生成部160cは、分割入力文に対象単語が含まれている場合には、対象単語の後ろに、語義IDを追記することで、語義追記入力文を生成する。たとえば、語義追記テキスト生成部160cは、分割入力文「She△drinks△cool△juice△.」の対象単語「cool△」の語義IDが「(1)」である場合には、語義追記入力文「She△drinks△cool(1)△juice△.」を生成する。
語義追記テキスト生成部160cは、分割出力文に対象単語が含まれている場合には、対象単語の後ろに、語義IDを追記することで、語義追記出力文を生成する。たとえば、語義追記テキスト生成部160cは、分割出力文「リンゴ△が△甘い△。」の対象単語「甘い」の語義IDが「(1)」である場合には、語義追記出力文「リンゴ△が△甘い(1)△。」を生成する。なお、分割出力文「彼女△は△冷たい△ジュース△を△飲む△。」のように、対象単語が存在しない場合には、語義追記テキスト生成部160cは、語義IDを追加しない分割出力文「彼女△は△冷たい△ジュース△を△飲む△。」を、語義追記出力文として取り扱う。
語義追記テキスト生成部160cは、上述する処理を実行し、語義追記入力文と、語義追記出力文とを語義ベクトル特定部160dに出力する。
語義ベクトル特定部160dは、語義追記入力文に含まれる各単語の語義ベクトルと、語義追記出力文に含まれる各単語の語義ベクトルを特定する。以下の説明では、語義追記入力文の単語の語義ベクトルを「第1ベクトル」と表記する。語義追記出力文の単語の語義ベクトルを「第2ベクトル」と表記する。語義ベクトル特定部160dは、各単語の第1ベクトルおよび第2ベクトルの情報を、学習部160eに出力する。
語義ベクトル特定部160dが、第1ベクトルを特定する処理の一例について説明する。語義ベクトル特定部160dは、語義追記入力文の各単語と、第1ベクトルテーブル150bとを比較することで、各単語に対応する各第1ベクトルを特定する。
語義ベクトル特定部160dが、第2ベクトルを特定する処理の一例について説明する。語義ベクトル特定部160dは、語義追記出力文の各単語と、第2ベクトルテーブル150cとを比較することで、各単語に対応する各第2ベクトルを特定する。
語義ベクトル特定部160dは、上記処理を実行することで、教師データテーブル150dの入力文の各第1ベクトルと、この入力文に対応する出力文の各第2ベクトルの情報を生成し、各第1ベクトルと各第2ベクトルとの情報を、学習部160eに出力する。
学習部160eは、RNNデータ150gに登録された各中間層のパラメータを用いて、RNN60の中間層61−1〜61−nに各第1ベクトルを入力し、中間層63−1〜63−nから出力される各ベクトルを算出する。学習部160eは、RNN60の中間層63−1〜63−nから出力される各ベクトルが、各第2ベクトルに近づくように、RNNデータ150gに登録された各中間層のパラメータを学習する。
たとえば、学習部160eは、中間層63−1〜63−nから出力される各ベクトルと、第2ベクトルとの差分を定義したコスト関数を用いて、差分が最小となるように、各中間層のパラメータを調整することで、学習を行ってもよい。
語義特定部160b、語義追記テキスト生成部160c、語義ベクトル特定部160d、学習部160eは、教師データを変更しつつ、上記処理を繰り返し実行することで、RNNデータ150gのパラメータを学習する。
続いて、本実施例に係る情報処理装置100が、学習したRNNデータ150gを用いて、入力文データ150hを翻訳した出力文データ150iを生成する処理について説明する。翻訳処理を行う場合には、制御部160の各処理部のうち、受付部160a、語義特定部160b、語義追記テキスト生成部160c、語義ベクトル特定部160d、変換部160f、テキスト生成部160g、通知部160hが動作する。
受付部160aは、外部装置からネットワークを介して、入力文データ150hを受け付ける。受付部160aは、受け付けた入力文データ150hを、記憶部150に格納する。
語義特定部160bは、語義HMM150aを基にして、入力文データ150hに含まれる入力文の単語の語義を特定する。語義特定部160bは、入力文データ(入力文)150hを形態素解析することで、入力文を複数の単語に分割し、分割入力文を生成する。
語義特定部160bは、分割入力文の各単語と、語義HMM150aとを比較して、対象単語を特定する。また、語義特定部160bは、分割入力文に含まれる対象単語の前後の単語と、語義HMM150aとを比較して、対象単語の語義IDを特定する。
語義特定部160bは、入力文の語義特定結果を、語義追記テキスト生成部160cに出力する。語義特定結果には、分割入力文、分割入力文中の対象単語、分割入力文中の対象単語の語義IDが含まれる。
語義追記テキスト生成部160cは、語義特定部160bから取得する語義特定結果を基にして、対象単語に語義IDを追記したテキスト情報を生成する処理部である。語義追記テキスト生成部160cは、分割入力文に対象単語が含まれている場合には、対象単語の後ろに、語義IDを追記することで、語義追記入力文を生成する。語義追記テキスト生成部160cは、語義追記入力文を、語義ベクトル特定部160dに出力する。
語義ベクトル特定部160dは、語義追記入力文に含まれる各単語の語義ベクトルを特定する。語義ベクトル特定部160dは、語義追記入力文の各単語と、第1ベクトルテーブル150bとを比較することで、各静的符号に対応する各第1ベクトルを特定する。語義ベクトル特定部160dは、特定した各第1ベクトルを、変換部160fに出力する。
変換部160fは、RNNデータ150gに登録された各中間層61−1〜63−nのパラメータを用いて、RNN60の各中間層61−1〜61−nに各第1ベクトルを入力する。変換部160fは、RNN60の中間層63−1〜63−nから出力される各第2ベクトルを取得することで、各第1ベクトルを各第2ベクトルに変換する。変換部160fは、変換した各第2ベクトルを、テキスト生成部160gに出力する。
テキスト生成部160gは、変換部160fから取得する各第2ベクトルを用いて、出力文データ150iを生成する処理部である。以下において、テキスト生成部160gの処理の一例について説明する。
テキスト生成部160gは、各第2ベクトルと、第2ベクトルテーブル150cとを比較して、各第2ベクトルに対応する単語をそれぞれ特定する。テキスト生成部160gは、特定した単語を並べることで、出力文データ150iを生成する。なお、テキスト生成部160gは、出力文データ150iの単語に語義IDが追記されている場合には、追記された語義IDを削除する。生成部160gは、生成した出力文データ150iを、記憶部150に格納する。
通知部160hは、テキスト生成部160gにより生成された出力文データ150iを、外部装置に通知する処理部である。たとえば、通知部160は、入力文データ150hの送信元となる外部装置に、出力文データ150iを通知する。
次に、本実施例に係る情報処理装置が実行するパラメータの学習処理の処理手順の一例について説明する。図11は、本実施例に係る情報処理装置の学習処理の処理手順を示すフローチャートである。図11に示すように、情報処理装置100の受付部160aは、教師データテーブル150dを受け付ける(ステップS101)。
情報処理装置100の語義特定部160bは、教師データテーブル150dから、教師データを取得する(ステップS102)。情報処理装置100の語義特定部160bおよび語義追記テキスト生成部160cは、語義追記処理を実行する(ステップS103)。
情報処理装置100の語義ベクトル特定部160dは、語義追記入力文に含まれる各単語に対して、各第1ベクトルを割り当てる(ステップS104)。
語義ベクトル特定部160dは、語義追記出力文に含まれる各単語に対して、各第2ベクトルを割り当てる(ステップS105)。
情報処理装置100の学習部160eは、各第1ベクトルをRNN60の各中間層に入力し、RNN60の各中間層から出力される各ベクトルが、各第2ベクトルに近づくように、パラメータを調整する(ステップS106)。
情報処理装置100は、学習を継続するか否かを判定する(ステップS107)。情報処理装置100が学習を継続する場合には(ステップS107,Yes)、語義特定部160bが、教師データテーブル150dから、新たな教師データを取得し(ステップS108)、ステップS103に移行する。一方、情報処理装置100は、学習を継続しない場合には(ステップS107,No)、処理を終了する。
次に、図11のステップS103に示した語義追記処理の処理手順の一例について説明する。図12は、語義追記処理の処理手順を示すフローチャートである。図12に示すように、情報処理装置100の語義特定部160bは、入力文を取得する(ステップS201)。語義特定部160bは、入力文を形態素解析する(ステップS202)。語義特定部160bは、入力文の各単語と、語義HMM150aとを基にして、対象単語および語義IDを特定する(ステップS203)。
情報処理装置100の語義追記テキスト生成部160cは、入力文に含まれる対象単語の後ろに語義IDを追記することで、語義追記入力文を生成する(ステップS204)。
語義特定部160bは、出力文を取得する(ステップS205)。語義特定部160bは、出力文を形態素解析する(ステップS206)。語義特定部160bは、出力文の各単語と、語義HMM150aとを基にして、対象単語および語義IDを特定する(ステップS207)。
語義追記テキスト生成部160cは、入力文に含まれる対象単語の後ろに語義IDを追記することで、語義追記出力文を生成する(ステップS208)。
次に、本実施例に係る情報処理装置が実行する翻訳処理の処理手順の一例について説明する。図13は、本実施例に係る情報処理装置の翻訳処理の処理手順を示すフローチャートである。図13に示すように、情報処理装置100の受付部160aは、入力文データ150hを受け付ける(ステップS301)。
情報処理装置100の語義特定部160bは、入力文を形態素解析する(ステップS302)。語義特定部160bは、入力文の各単語と、語義HMM150aとを基にして、対象単語および語義IDを特定する(ステップS303)。
情報処理装置100の語義追記テキスト生成部160cは、入力文に含まれる対象単語の後ろに語義IDを追記することで、語義追記入力文を生成する(ステップS304)。
情報処理装置100の語義ベクトル特定部160dは、入力文に含まれる各単語に対して、各第1ベクトルを割り当てる(ステップS305)。
情報処理装置100の変換部160fは、各第1ベクトルをRNN60の各中間層61−1〜61−nに入力し、RNN60の各中間層63−1〜63−nから出力される各第2ベクトルを取得する(ステップS306)。
情報処理装置100のテキスト生成部160gは、第2ベクトルテーブル150cを参照して、各第2ベクトルを単語に変換する(ステップS307)。テキスト生成部160gは、出力文データ150iを生成する(ステップS308)。情報処理装置100の通知部160hは、出力文データ150iを外部装置に通知する(ステップS309)。
次に、本実施例に係る情報処理装置100の効果について説明する。情報処理装置100は、教師データを取得すると、教師データと語義HMM150aとを基にして、教師データに多義語(対象単語)が含まれるか否かを判定する。情報処理装置100は、対象単語が含まれる場合には、対象単語の語義IDを特定し、対象単語と語義IDとの組を一つの単語としたテキスト情報(語義追記入力文、語義追記出力文)を生成する。情報処理装置100は、かかる語義追記入力文、語義追記出力文を用いて、RNN60のパラメータを学習する。本実施例では、対象単語と語義IDとの組を一つの単語とみなし、ベクトルに変換するため、単語の語義を区別可能な状態で学習を行うことができる。これにより、テキスト情報の翻訳精度を高めることができる。
たとえば、情報処理装置100は、語義追記入力文から生成する第1ベクトルをRNN60に入力した場合に、RNN60から出力される各ベクトルが、語義追記出力文から生成する第2ベクトルに近づくように、RNN60のパラメータを調整する。このように、教師データを、多義語の語義を区別可能な語義ベクトルに変換することで、RNN60のパラメータの学習を効率的に実行することができる。
情報処理装置100は、RNNのパラメータの学習を行った後に、翻訳対象となる入力文を受け付けると、入力文に多義語(対象単語)が含まれているか否かを判定する。情報処理装置100は、入力文に対象単語が含まれている場合には、対象単語の語義IDを特定し、対象単語と語義IDとの組を一つの単語としたテキスト情報(語義追記入力文)を生成する。情報処理装置100は、かかる語義追記入力文を、RNN60に入力することで、最適な翻訳結果となる出力文データ150iを生成することができる。
次に、実施例に示した情報処理装置100と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図14は、本実施例に係る情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
図14に示すように、コンピュータ300は、各種演算処理を実行するCPU301と、ユーザからのデータの入力を受け付ける入力装置302と、ディスプレイ303とを有する。また、コンピュータ300は、記憶媒体からプログラム等を読み取る読み取り装置304と、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行うインタフェース装置305とを有する。コンピュータ300は、各種情報を一時記憶するRAM306と、ハードディスク装置307とを有する。そして、各装置301〜307は、バス308に接続される。
ハードディスク装置307は、受付プログラム307a、語義特定プログラム307b、語義追記テキスト生成プログラム307c、語義ベクトル特定プログラム307d、学習プログラム307eを有する。また、ハードディスク装置307は、変換プログラム307f、テキスト生成プログラム307g、通知プログラム307hを有する。CPU301は、受付プログラム307a、語義特定プログラム307b、語義追記テキスト生成プログラム307c、語義ベクトル特定プログラム307d、学習プログラム307eを読み出してRAM306に展開する。CPU301は、変換プログラム307f、テキスト生成プログラム307g、通知プログラム307hを読み出してRAM306に展開する。
受付プログラム307aは、受付プロセス306aとして機能する。語義特定プログラム307bは、語義特定プロセス306bとして機能する。語義追記テキスト生成プログラム307cは、語義追記テキスト生成プロセス306cとして機能する。語義ベクトル特定プログラム307dは、語義ベクトル特定プロセス306dとして機能する。学習プログラム307eは、学習プロセス306eとして機能する。変換プログラム307fは、変換プロセス306fとして機能する。テキスト生成プログラム307gは、テキスト生成プロセス306gとして機能する。通知プログラム307hは、通知プロセス306hとして機能する。
受付プロセス306aの処理は、受付部160aの処理に対応する。語義特定プロセス306bの処理は、語義特定部160bの処理に対応する。語義追記テキスト生成プロセス306cの処理は、語義追記テキスト生成部160cの処理に対応する。語義ベクトル特定プロセス306dの処理は、語義ベクトル特定部160dの処理に対応する。学習プロセス306eの処理は、学習部160eの処理に対応する。変換プロセス306fの処理は、変換部160fの処理に対応する。テキスト生成プロセス306gの処理は、テキスト生成部160gの処理に対応する。通知プロセス306hの処理は、通知部160hの処理に対応する。
なお、各プログラム307a〜307hについては、必ずしも最初からハードディスク装置307に記憶させておかなくてもよい。例えば、コンピュータ300に挿入されるフレキシブルディスク(FD)、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ300が各プログラム307a〜307hを読み出して実行するようにしてもよい。
100 情報処理装置
110 通信部
120 入力部
130 表示部
150 記憶部
150a 語義HMM
150b 第1ベクトルテーブル
150c 第2ベクトルテーブル
150d 教師データテーブル
150e コード変換テーブル
150f 辞書情報
150g RNNデータ
150h 入力文データ
150i 出力文データ

Claims (15)

  1. コンピュータが、
    テキスト情報を受け付け、
    受け付けた前記テキスト情報に含まれる複数の単語を抽出し、
    複数の語義を含む単語の語義ごとに、前記単語に対する他の単語の共起情報を記憶する記憶部を参照して、抽出した前記複数の単語のうち、複数の語義を含むいずれかの単語に対する他の単語の共起情報に基づき、前記いずれかの単語の語義を特定し、
    前記いずれかの単語と、特定した前記語義を識別する文字とを含む語義追記テキスト情報を生成する、
    処理を実行することを特徴とする生成方法。
  2. 前記語義を特定する処理は、テキスト情報に含まれる多義語と該多義語の語義を識別する情報とを特定し、
    前記語義追記テキスト情報を生成する処理は、多義語となる単語に、前記多義語の語義を識別する文字を追加し、前記多義語となる単語と、前記語義を識別する文字との組を一つの単語の区切りとする語義追記テキスト情報を生成することを特徴とする請求項1に記載の生成方法。
  3. 前記テキスト情報を受け付ける処理は、第1言語の第1のテキスト情報と、第2言語の第2のテキスト情報とを受け付け、
    前記語義を特定する処理は、前記第1のテキスト情報および前記第2のテキスト情報から多義語と該多義語を識別する情報を特定し、
    前記語義追記テキスト情報を生成する処理は、前記第1のテキスト情報から特定された多義語および該多義語を識別する情報を基にして、多義語となる単語と、前記語義を識別する文字との組を一つの単語の区切りとする第1語義追記テキスト情報を生成し、
    前記第2のテキスト情報から特定された多義語および該多義語を識別する情報を基にして、多義語となる単語と、前記語義を識別する文字との組を一つの単語の区切りとする第2語義追記テキスト情報を生成することを特徴とする請求項2に記載の生成方法。
  4. 前記多義語および該多義語の語義を識別する情報と語義ベクトルとを対応付けて記憶する記憶部を参照して、前記第1語義追記テキスト情報の単語の第1語義ベクトルを特定し、前記第2語義追記テキスト情報の単語の第2語義ベクトルを特定し、
    前記第1語義追記テキスト情報に含まれる第1単語から特定される第1語義ベクトルを、変換モデルに入力した際に出力される語義ベクトルが、前記第1単語と類似する単語であって、前記第2語義追記テキスト情報に含まれる第2単語から特定される第2語義ベクトルに近づくように、前記変換モデルのパラメータを学習する
    処理を更に実行することを特徴とする請求項3に記載の生成方法。
  5. 前記テキスト情報を受け付ける処理は、前記第1言語の第3のテキスト情報を受け付け、
    前記語義を特定する処理は、前記第3のテキスト情報から多義語と該多義語を識別する情報を特定し、
    前記語義追記テキスト情報を生成する処理は、前記第3のテキスト情報から特定された多義語および該多義語を識別する情報を基にして、多義語となる単語と、前記語義を識別する文字との組を一つの単語の区切りとする第3語義追記テキスト情報を生成し、
    前記語義ベクトルを特定する処理は、前記多義語および該多義語の語義を識別する情報と語義ベクトルとを対応付けて記憶する記憶部を参照して、前記第3語義追記テキスト情報の単語の第3語義ベクトルを特定し、
    学習された前記変換モデルに前記第3語義ベクトルを入力することで、前記第3語義ベクトルを第4語義ベクトルに変換し、
    前記第4語義ベクトルを基にして、第2言語の第4のテキスト情報を生成する
    処理を更に実行することを特徴とする請求項4に記載の生成方法。
  6. テキスト情報を受け付け、
    受け付けた前記テキスト情報に含まれる複数の単語を抽出し、
    複数の語義を含む単語の語義ごとに、前記単語に対する他の単語の共起情報を記憶する記憶部を参照して、抽出した前記複数の単語のうち、複数の語義を含むいずれかの単語に対する他の単語の共起情報に基づき、前記いずれかの単語の語義を特定し、
    前記いずれかの単語と、特定した前記語義を識別する文字とを含む語義追記テキスト情報を生成する、
    処理をコンピュータに実行させることを特徴とする生成プログラム。
  7. 前記語義を特定する処理は、テキスト情報に含まれる多義語と該多義語の語義を識別する情報とを特定し、
    前記語義追記テキスト情報を生成する処理は、多義語となる単語に、前記多義語の語義を識別する文字を追加し、前記多義語となる単語と、前記語義を識別する文字との組を一つの単語の区切りとする語義追記テキスト情報を生成することを特徴とする請求項6に記載の生成プログラム。
  8. 前記テキスト情報を受け付ける処理は、第1言語の第1のテキスト情報と、第2言語の第2のテキスト情報とを受け付け、
    前記語義を特定する処理は、前記第1のテキスト情報および前記第2のテキスト情報から多義語と該多義語を識別する情報を特定し、
    前記語義追記テキスト情報を生成する処理は、前記第1のテキスト情報から特定された多義語および該多義語を識別する情報を基にして、多義語となる単語と、前記語義を識別する文字との組を一つの単語の区切りとする第1語義追記テキスト情報を生成し、
    前記第2のテキスト情報から特定された多義語および該多義語を識別する情報を基にして、多義語となる単語と、前記語義を識別する文字との組を一つの単語の区切りとする第2語義追記テキスト情報を生成することを特徴とする請求項7に記載の生成プログラム。
  9. 前記多義語および該多義語の語義を識別する情報と語義ベクトルとを対応付けて記憶する記憶部を参照して、前記第1語義追記テキスト情報の単語の第1語義ベクトルを特定し、前記第2語義追記テキスト情報の単語の第2語義ベクトルを特定し、
    前記第1語義追記テキスト情報に含まれる第1単語から特定される第1語義ベクトルを、変換モデルに入力した際に出力される語義ベクトルが、前記第1単語と類似する単語であって、前記第2語義追記テキスト情報に含まれる第2単語から特定される第2語義ベクトルに近づくように、前記変換モデルのパラメータを学習する
    処理を更に実行させることを特徴とする請求項8に記載の生成プログラム。
  10. 前記テキスト情報を受け付ける処理は、前記第1言語の第3のテキスト情報を受け付け、
    前記語義を特定する処理は、前記第3のテキスト情報から多義語と該多義語を識別する情報を特定し、
    前記語義追記テキスト情報を生成する処理は、前記第3のテキスト情報から特定された多義語および該多義語を識別する情報を基にして、多義語となる単語と、前記語義を識別する文字との組を一つの単語の区切りとする第3語義追記テキスト情報を生成し、
    前記語義ベクトルを特定する処理は、前記多義語および該多義語の語義を識別する情報と語義ベクトルとを対応付けて記憶する記憶部を参照して、前記第3語義追記テキスト情報の単語の第3語義ベクトルを特定し、
    学習された前記変換モデルに前記第3語義ベクトルを入力することで、前記第3語義ベクトルを第4語義ベクトルに変換し、
    前記第4語義ベクトルを基にして、第2言語の第4のテキスト情報を生成する
    処理を更に実行させることを特徴とする請求項9に記載の生成プログラム。
  11. テキスト情報を受け付ける受付部と、
    受け付けた前記テキスト情報に含まれる複数の単語を抽出し、複数の語義を含む単語の語義ごとに、前記単語に対する他の単語の共起情報を記憶する記憶部を参照して、抽出した前記複数の単語のうち、複数の語義を含むいずれかの単語に対する他の単語の共起情報に基づき、前記いずれかの単語の語義を特定する語義特定部と、
    前記いずれかの単語と、特定した前記語義を識別する文字とを含む語義追記テキスト情報を生成する語義追記テキスト生成部と
    を有することを特徴とする情報処理装置。
  12. 前記語義特定部は、テキスト情報に含まれる多義語と該多義語の語義を識別する情報とを特定し、前記語義追記テキスト生成部は、多義語となる単語に、前記多義語の語義を識別する文字を追加し、前記多義語となる単語と、前記語義を識別する文字との組を一つの単語の区切りとする語義追記テキスト情報を生成することを特徴とする請求項11に記載の情報処理装置。
  13. 前記受付部は、第1言語の第1のテキスト情報と、第2言語の第2のテキスト情報とを受け付け、
    前記語義特定部は、前記第1のテキスト情報および前記第2のテキスト情報から多義語と該多義語を識別する情報を特定し、
    前記語義追記テキスト生成部は、前記第1のテキスト情報から特定された多義語および該多義語を識別する情報を基にして、多義語となる単語と、前記語義を識別する文字との組を一つの単語の区切りとする第1語義追記テキスト情報を生成し、前記第2のテキスト情報から特定された多義語および該多義語を識別する情報を基にして、多義語となる単語と、前記語義を識別する文字との組を一つの単語の区切りとする第2語義追記テキスト情報を生成することを特徴とする請求項12に記載の情報処理装置。
  14. 前記多義語および該多義語の語義を識別する情報と語義ベクトルとを対応付けて記憶する記憶部を参照して、前記第1語義追記テキスト情報の単語の第1語義ベクトルを特定し、前記第2語義追記テキスト情報の単語の第2語義ベクトルを特定する語義ベクトル特定部と、
    前記第1語義追記テキスト情報に含まれる第1単語から特定される第1語義ベクトルを、変換モデルに入力した際に出力される語義ベクトルが、前記第1単語と類似する単語であって、前記第2語義追記テキスト情報に含まれる第2単語から特定される第2語義ベクトルに近づくように、前記変換モデルのパラメータを学習する学習部と
    を更に有することを特徴とする請求項13に記載の情報処理装置。
  15. 前記受付部は、前記第1言語の第3のテキスト情報を受け付け、
    前記語義特定部は、前記第3のテキスト情報から多義語と該多義語を識別する情報を特定し、
    前記語義追記テキスト生成部は、前記第3のテキスト情報から特定された多義語および該多義語を識別する情報を基にして、多義語となる単語と、前記語義を識別する文字との組を一つの単語の区切りとする第3語義追記テキスト情報を生成し、
    前記語義ベクトル特定部は、前記多義語および該多義語の語義を識別する情報と語義ベクトルとを対応付けて記憶する記憶部を参照して、前記第3語義追記テキスト情報の単語の第3語義ベクトルを特定し、
    前記学習部により学習された前記変換モデルに前記第3語義ベクトルを入力することで、前記第3語義ベクトルを第4語義ベクトルに変換する変換部と、
    前記第4語義ベクトルを基にして、第2言語の第4のテキスト情報を生成するテキスト生成部と、
    を更に有することを特徴とする請求項14に記載の情報処理装置。
JP2020531852A 2018-07-23 2018-07-23 生成方法、生成プログラムおよび情報処理装置 Active JP7205542B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/027571 WO2020021609A1 (ja) 2018-07-23 2018-07-23 生成方法、生成プログラムおよび情報処理装置

Publications (2)

Publication Number Publication Date
JPWO2020021609A1 true JPWO2020021609A1 (ja) 2021-08-02
JP7205542B2 JP7205542B2 (ja) 2023-01-17

Family

ID=69181533

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020531852A Active JP7205542B2 (ja) 2018-07-23 2018-07-23 生成方法、生成プログラムおよび情報処理装置

Country Status (5)

Country Link
US (1) US20210142006A1 (ja)
EP (1) EP3828752A4 (ja)
JP (1) JP7205542B2 (ja)
AU (1) AU2018433736B2 (ja)
WO (1) WO2020021609A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116324791A (zh) * 2020-10-30 2023-06-23 富士通株式会社 信息处理程序、信息处理方法以及信息处理装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01314373A (ja) * 1988-06-15 1989-12-19 Hitachi Ltd 機械翻訳システムにおける訳語選択方式
JP2012027723A (ja) * 2010-07-23 2012-02-09 Sony Corp 情報処理装置、情報処理方法及び情報処理プログラム
JP2012141679A (ja) 2010-12-28 2012-07-26 Nippon Telegr & Teleph Corp <Ntt> 訓練データ獲得装置、訓練データ獲得方法、及びそのプログラム
JP5754018B2 (ja) 2011-07-11 2015-07-22 日本電気株式会社 多義語抽出システム、多義語抽出方法、およびプログラム
EP3100174A1 (de) 2014-01-28 2016-12-07 Somol Zorzin GmbH Verfahren zur automatischen sinnerkennung und messung der eindeutigkeit von text
JP6706810B2 (ja) * 2016-12-13 2020-06-10 パナソニックIpマネジメント株式会社 翻訳装置および翻訳方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
増田嵩志 他1名: "ニューラルネットワーク日英機械翻訳における品詞情報の利用", 言語処理学会第22回年次大会 発表論文集[ONLINE], JPN6022010320, 29 February 2016 (2016-02-29), JP, pages 294 - 297, ISSN: 0004827919 *
福本文代 他1名: "コーパスに基づく動詞の多義解消", 自然言語処理, vol. 第4巻 第2号, JPN6022010319, 10 April 1997 (1997-04-10), JP, pages 21 - 39, ISSN: 0004827918 *

Also Published As

Publication number Publication date
AU2018433736A1 (en) 2021-02-11
US20210142006A1 (en) 2021-05-13
JP7205542B2 (ja) 2023-01-17
EP3828752A1 (en) 2021-06-02
AU2018433736B2 (en) 2022-05-12
EP3828752A4 (en) 2021-07-28
WO2020021609A1 (ja) 2020-01-30

Similar Documents

Publication Publication Date Title
US7840521B2 (en) Computer-based method and system for efficient categorizing of digital documents
US10565508B2 (en) Inferred facts discovered through knowledge graph derived contextual overlays
JP5802292B2 (ja) 共有された言語モデル
US20150286629A1 (en) Named entity recognition
JP2010520531A (ja) 統合ピンイン及び画入力
US20210192152A1 (en) Generating method, non-transitory computer readable recording medium, and information processing apparatus
CN107305543B (zh) 对实体词的语义关系进行分类的方法和装置
KR20200084260A (ko) 전자 장치 및 이의 제어 방법
US10572601B2 (en) Unsupervised template extraction
KR101709693B1 (ko) 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법
KR20200095947A (ko) 전자 장치 및 이의 제어 방법
JP7205542B2 (ja) 生成方法、生成プログラムおよび情報処理装置
KR20200099966A (ko) 명목형 데이터를 포함하는 데이터를 기반으로 하는 학습 방법 및 장치
JP6900724B2 (ja) 学習プログラム、学習方法および学習装置
WO2018066083A1 (ja) 学習プログラム、情報処理装置および学習方法
US11514248B2 (en) Non-transitory computer readable recording medium, semantic vector generation method, and semantic vector generation device
AU2018432789B2 (en) Learning method, translation method, learning program, translation program, and information processing apparatus
JP6972788B2 (ja) 特定プログラム、特定方法および情報処理装置
JP2019215660A (ja) 処理プログラム、処理方法および情報処理装置
KR102651468B1 (ko) 개체명 인식 장치 및 방법
JP2011180836A (ja) 記号変換装置、記号変換方法、記号変換プログラム
WO2021186501A1 (ja) 音声認識装置、制御方法、及びプログラム
KR20230094032A (ko) 전자 장치 및 그 제어 방법
CN112567456A (zh) 学习辅助工具
JP2019185491A (ja) 特定プログラム、生成プログラム、特定方法、生成方法および情報処理装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210114

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220428

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221013

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20221013

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20221020

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20221025

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221212

R150 Certificate of patent or registration of utility model

Ref document number: 7205542

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150