WO2021038827A1

WO2021038827A1 - 情報処理方法、情報処理プログラムおよび情報処理装置

Info

Publication number: WO2021038827A1
Application number: PCT/JP2019/034100
Authority: WO
Inventors: 友哉岩倉; 拓哉牧野
Original assignee: 富士通株式会社
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2021-03-04
Also published as: JPWO2021038827A1; JP7248130B2; US20220171926A1

Abstract

情報処理装置は、第一の文書のうち、第二の文書に含まれていない単語を抽出し、抽出した単語を第一の辞書に登録し、第二の文書を構成する単語を再帰型のエンコーダに順番に入力することで中間表現ベクトルを算出する。情報処理装置は、第一の辞書に登録された各単語の確率分布を算出する再帰型のデコーダに、中間表現ベクトルを入力した結果を基にして、第一の確率分布を算出する。情報処理装置は、第二の文書を構成する各単語を再帰型のエンコーダに入力することで算出される隠れ状態ベクトルと、再帰型のデコーダから出力される隠れ状態ベクトルとを基にして、第二の文書を構成される単語の第二の辞書の第二の確率分布を算出する。情報処理装置は、第一の確率分布と、第二の確率分布とを基にして、第一の文書を構成する単語を生成または学習する。

Description

情報処理方法、情報処理プログラムおよび情報処理装置

　本発明は、情報処理方法等に関する。

　新聞やＷｅｂサイト、電光掲示板などの文書から要約文を生成する自動要約にＮＮ（Neural　Network）等の機械学習が利用されることがある。たとえば、入力文をベクトル化するＲＮＮ（Recurrent　Neural　Networks）エンコーダと、入力文のベクトルを参照して要約文の単語の生成を繰り返すＲＮＮデコーダとが接続されたモデルが要約文の生成に用いられる。

　この他、ＲＮＮとＰｏｉｎｔｅｒ機能を組み合わせることにより、ＲＮＮデコーダが要約文の単語を出力する際、入力文の単語を要約文の単語としてコピーすることができるＰｏｉｎｔｅｒ－Ｇｅｎｅｒａｔｏｒも提案されている（Pointer　Generator　Networks）。

　図１６～図２１は、従来のＰｏｉｎｔｅｒ－Ｇｅｎｅｒａｔｏｒを説明するための図である。図１６～図２１では、学習済みのエンコーダ２０、デコーダ３０を用いて、入力文１０ａから、要約文１０ｂを生成する場合について説明する。従来のＰｏｉｎｔｅｒ－Ｇｅｎｅｒａｔｏｒを実行する装置を「従来装置」と表記する。入力文１０ａを「自然言語処理の方向性発表」とする。

　図１６について説明する。従来装置は、入力文１０ａをエンコーダ２０に入力することで、中間表現を算出する。従来装置は、中間表現（ベクトル）と、単語の文頭記号ＢＯＳを、デコーダ３０のＬＳＴＭ（Long　short-term　memory）３１－Ｔ１に入力することで、要約単語辞書に含まれる各単語の確率分布Ｄ２を算出する。要約単語辞書は、要約文に含まれる単語を定義する辞書であり、メモリに展開されて用いられる。

　従来装置は、入力文１０ａをエンコーダ２０に入力した際に算出される隠れ状態ベクトルｈと、ＬＳＴＭ３１－Ｔ１から出力される隠れ状態ベクトルＨ１とを基にして、入力文１０ａからコピーされる各単語の確率分布Ｄ１を算出する。

　図１７について説明する。従来装置は、確率分布Ｄ１に重み「０．２」を乗算した確率分布と、確率分布Ｄ２に重み「０．８」を乗算した確率分布とを加算した確率分布Ｄ３を算出する。そうすると、確率分布Ｄ３において、単語「ＮＬＰ」の確率が最大となるため、従来装置は、要約文１０ｂの１文字目を「ＮＬＰ」に設定する。なお、「０．２」、「０．８」といった重みは学習により決定されるものである。また、状態に応じて動的に変えることもできるが、説明の簡単化のために固定の値とする。

　図１８について説明する。従来装置は、「ＮＬＰ」のベクトルと、ＬＳＴＭ３１－Ｔ１から出力される隠れ状態ベクトルＨ１とをＬＳＴＭ３１－Ｔ２に入力することで、要約単語辞書に含まれる各単語の確率分布Ｄ２を算出する。

　従来装置は、隠れ状態ベクトルｈと、ＬＳＴＭ３１－Ｔ２から出力される隠れ状態ベクトルＨ２とを基にして、入力文１０ａからコピーされる各単語の確率分布Ｄ１を算出する。

　図１９について説明する。従来装置は、確率分布Ｄ１に重み「０．２」を乗算した確率分布と、確率分布Ｄ２に重み「０．８」を乗算した確率分布とを加算した確率分布Ｄ３を算出する。そうすると、確率分布Ｄ３において、単語「の」の確率が最大となるため、従来装置は、要約文１０ｂの２文字目を「の」に設定する。

　図２０について説明する。従来装置は、「の」のベクトルと、ＬＳＴＭ３１－Ｔ２から出力される隠れ状態ベクトルＨ２とをＬＳＴＭ３１－Ｔ３に入力することで、要約単語辞書に含まれる各単語の確率分布Ｄ２を算出する。

　従来装置は、隠れ状態ベクトルｈと、ＬＳＴＭ３１－Ｔ３から出力される隠れ状態ベクトルＨ３とを基にして、入力文１０ａからコピーされる各単語の確率分布Ｄ１を算出する。

　図２１について説明する。従来装置は、確率分布Ｄ１に重み「０．２」を乗算した確率分布と、確率分布Ｄ２に重み「０．８」を乗算した確率分布とを加算した確率分布Ｄ３を算出する。そうすると、確率分布Ｄ３において、単語「方向」の確率が最大となるため、従来装置は、要約文１０ｂの３文字目を「方向」に設定する。

　上記のように、従来装置は、図１６～図２１の処理を実行することで、入力文１０ａ「自然言語処理の方向性発表」から要約文１０ｂ「ＮＬＰの方向」を生成する。

　ここで、従来装置で用いられる要約単語辞書の生成処理の一例について説明する。図２２は、従来の要約書辞書の生成処理を説明するための図である。従来装置は、入力文と要約文とがペアとなった学習データ４０を取得すると、学習データ４０に含まれる各要約文を基にして、要約単語辞書を生成する。たとえば、従来装置は、要約文に含まれる各単語の頻度を特定し、頻度が閾値以上となる単語を、要約単語辞書に登録する。各要約文に含まれる単語と頻度との関係は、テーブル４１に示すものとなる。

特開２０１９－１１７４８６号公報

　図１６～図２１で説明したように、従来装置は、要約単語辞書をメモリに展開し、入力文１０ａからコピーされる各単語の確率分布Ｄ１と、要約単語辞書に含まれる各単語の確率分布Ｄ２とを基にして、要約文１０ｂの単語を特定している。

　ここで、入力文１０ａからコピーされる単語には、要約単語辞書に登録された単語と同一の単語が含まれており、入力文１０ａのコピーで対応できる単語が、要約単語辞書に含まれてしまう。このため、要約単語辞書に登録する単語を削減し、メモリ使用量を削減する余地がある。たとえば、図１６～図２１では、要約単語辞書に含まれる「の」が、入力文１０ａの単語のコピーに含まれている。

　１つの側面では、本発明は、メモリ使用量を削減することができる情報処理方法、情報処理プログラムおよび情報処理装置を提供することを目的とする。

　第１の案では、コンピュータは、次の処理を実行する。コンピュータは、第一の文書のうち、第二の文書に含まれていない単語を抽出し、抽出した単語を第一の辞書に登録し、第二の文書を構成する単語を再帰型のエンコーダに順番に入力することで中間表現ベクトルを算出する。コンピュータは、第一の辞書に登録された各単語の確率分布を算出する再帰型のデコーダに、中間表現ベクトルを入力した結果を基にして、第一の確率分布を算出する。コンピュータは、第二の文書を構成する各単語を再帰型のエンコーダに入力することで算出される隠れ状態ベクトルと、再帰型のデコーダから出力される隠れ状態ベクトルとを基にして、第二の文書を構成される単語の第二の辞書の第二の確率分布を算出する。コンピュータは、第一の確率分布と、第二の確率分布とを基にして、第一の文書を構成する単語を生成または学習する。

　メモリ使用量を削減することができる。

図１は、本実施例に係る情報処理装置が、要約単語辞書を生成する処理を説明するための図である。図２は、入力文と要約文とのペアを比較する理由を説明するための図である。図３は、本実施例に係る情報処理装置が要約文を生成する処理を説明するための図（１）である。図４は、本実施例に係る情報処理装置が要約文を生成する処理を説明するための図（２）である。図５は、本実施例に係る情報処理装置が要約文を生成する処理を説明するための図（３）である。図６は、本実施例に係る情報処理装置が要約文を生成する処理を説明するための図（４）である。図７は、本実施例に係る情報処理装置が要約文を生成する処理を説明するための図（５）である。図８は、本実施例に係る情報処理装置が要約文を生成する処理を説明するための図（６）である。図９は、本実施例に係る情報処理装置の学習処理を説明するための図である。図１０は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。図１１は、要約単語辞書のデータ構造の一例を示す図である。図１２は、元テキスト辞書のデータ構造の一例を示す図である。図１３は、本実施例に係る情報処理装置の処理手順を示すフローチャートである。図１４は、要約単語辞書生成処理の処理手順を示すフローチャートである。図１５は、情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。図１６は、従来のＰｏｉｎｔｅｒ－Ｇｅｎｅｒａｔｏｒを説明するための図（１）である。図１７は、従来のＰｏｉｎｔｅｒ－Ｇｅｎｅｒａｔｏｒを説明するための図（２）である。図１８は、従来のＰｏｉｎｔｅｒ－Ｇｅｎｅｒａｔｏｒを説明するための図（３）である。図１９は、従来のＰｏｉｎｔｅｒ－Ｇｅｎｅｒａｔｏｒを説明するための図（４）である。図２０は、従来のＰｏｉｎｔｅｒ－Ｇｅｎｅｒａｔｏｒを説明するための図（５）である。図２１は、従来のＰｏｉｎｔｅｒ－Ｇｅｎｅｒａｔｏｒを説明するための図（６）である。図２２は、従来の要約単語辞書の生成処理を説明するための図である。

　以下に、本発明にかかる情報処理方法、情報処理プログラムおよび情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

　本実施例に係る情報処理装置が、Ｐｏｉｎｔｅｒ－Ｇｅｎｅｒａｔｏｒで使用する要約単語辞書を生成する処理の一例について説明する。図１は、本実施例に係る情報処理装置が、要約単語辞書を生成する処理を説明するための図である。本実施例に係る情報処理装置は、入力文と要約文とのペアをそれぞれ比較し、要約文にしか含まれない単語を、要約単語辞書に登録する。入力文は「第二の文書」に対応する。要約文は「第一の文書」に対応する。

　図１において、学習データ７０には、入力文１１ａと要約文１１ｂとのペア、入力文１２ａと要約文１２ｂとのペア、入力文１３ａと要約文１３ｂとのペアが含まれる。学習データ７０には、他の入力文と他の要約文とのペアが含まれていてもよい。

　情報処理装置は、入力文１１ａの各単語と、要約文１１ｂの各単語とを比較し、要約文１１ｂにのみ含まれる単語「分類」を抽出する。抽出結果１１ｃには、抽出した単語「分類」と、頻度「１」とが含まれる。

　情報処理装置は、入力文１２ａの各単語と、要約文１２ｂの各単語とを比較し、要約文１２ｂにのみ含まれる単語「分類」を抽出する。抽出結果１２ｃには、抽出した単語「分類」と、頻度「１」とが含まれる。

　情報処理装置は、入力文１３ａの各単語と、要約文１３ｂの各単語とを比較し、要約文１３ｂにのみ含まれる単語「ＮＬＰ」を抽出する。抽出結果１３ｃには、抽出した単語「ＮＬＰ」と、頻度「１」とが含まれる。

　情報処理装置は、他の入力文と他の要約文とのペアについても、要約文にのみ含まれる単語を抽出し、抽出した単語と、頻度とを対応付ける処理を繰り返し実行する。情報処理装置は、各抽出結果１１ｃ～１３ｃ（他の抽出結果）を集計することで、単語と、頻度とを対応付けた集計結果１５を生成する。情報処理装置は、集計結果に含まれる単語を、要約単語辞書に登録する。情報処理装置は、集計結果に含まれる単語のうち、頻度が閾値以上となる単語を、要約単語辞書に登録してもよい。要約単語辞書は「第一の辞書」に対応する。

　本実施例に係る情報処理装置は、図１で説明した処理を実行する。情報処理装置は、要約単語辞書を生成することで、入力文と、要約文とのペアにおいて、要約文にのみ存在する単語を、要約単語辞書に登録するため、要約単語辞書のデータ量を削減することができ、メモリ使用量を削減することができる。

　なお、情報処理装置は、全ての入力文の単語の集合と、全ての要約文の単語の集合とを比較しているわけではない。仮に、全ての入力文の単語の集合と、全ての要約文の単語の集合とを比較して、要約文側にのみ存在する単語を、要約単語辞書に登録すると、要約単語辞書を用いて、要約文を適切に生成できない場合がある。

　図２は、入力文と要約文とのペアを比較する理由を説明するための図である。図２において、各入力文１１ａ～１３ａ（学習データ７０に含まれる他の入力文）から、単語と頻度とを抽出すると、抽出結果１５ａとなる。学習データ７０に含まれる各要約文１１ｂ～１３ｂ（学習データ７０に含まれる他の要約文）から、単語と頻度とを抽出すると、抽出結果１５ｂとなる。抽出結果１５ａに存在し、抽出結果１５ｂにしない単語は、抽出結果１５ｃに示すものとなる。

　たとえば、抽出結果１５ｃに含まれる単語「分類」、「開始」を要約単語辞書に登録し、かかる要約単語辞書を用いて、入力文１３ａの要約文を生成する場合を想定する。この場合には、要約単語辞書に、「自然言語処理」に対応する「ＮＬＰ」が登録されていないので、対応が取れず、適切な要約文を生成できない。これに対して、図１で説明した処理では、要約単語辞書に「ＮＬＰ」が登録されるため、適切な要約文が生成できる。

　続いて、本実施例に係る情報処理装置が、図１で説明した処理によって生成した要約単語辞書を用いて、入力文から要約文を生成する処理の一例について説明する。図３～図８は、本実施例に係る情報処理装置が要約文を生成する処理を説明するための図である。

　図３について説明する。情報処理装置は、入力文１０ａをエンコーダ５０に入力することで、中間表現を算出する。情報処理装置は、中間表現（ベクトル）と、単語の文頭記号＜ＢＯＳ（Begin　Of　Sentence）＞を、デコーダ６０のＬＳＴＭ（Long　short-term　memory）６１－Ｔ１に入力することで、要約単語辞書に含まれる各単語の確率分布Ｄ２を算出する。確率分布Ｄ２は、「第一の確率分布」に対応する。

　本実施例で用いる要約単語辞書は、図１で説明した処理によって生成された要約単語辞書であり、入力文と要約文とのペアをそれぞれ比較した結果、要約文にしか含まれない単語を、要約単語辞書に登録している。このため、図１６～図２１で説明した従来装置が用いる要約単語辞書と比較して、本実施例で用いる要約単語辞書は、サイズが小さい。

　情報処理装置は、入力文１０ａをエンコーダ５０に入力した際に算出される隠れ状態ベクトルｈと、ＬＳＴＭ６１－Ｔ１から出力される隠れ状態ベクトルＨ１とを基にして、入力文１０ａからコピーされる各単語の確率分布Ｄ１を算出する。確率分布Ｄ１は、「第二の確率分布」に対応する。

　図４について説明する。情報処理装置は、確率分布Ｄ１に重み「０．２」を乗算した確率分布と、確率分布Ｄ２に重み「０．８」を乗算した確率分布とを加算した確率分布Ｄ３を算出する。そうすると、確率分布Ｄ３において、単語「ＮＬＰ」の確率が最大となるため、情報処理装置は、要約文１０ｂの１文字目を「ＮＬＰ」に設定する。

　確率分布Ｄ１に対する重み、確率分布Ｄ１に対する重みは、予め設定される。情報処理装置は、要約単語辞書の優先度を高める場合、確率分布Ｄ１の重みよりも、確率分布Ｄ２の重みを大きくする。

　図５について説明する。情報処理装置は、「ＮＬＰ」のベクトルと、ＬＳＴＭ６１－Ｔ１から出力される隠れ状態ベクトルＨ１とをＬＳＴＭ６１－Ｔ２に入力することで、要約単語辞書に含まれる各単語の確率分布Ｄ２を算出する。

　情報処理装置は、隠れ状態ベクトルｈと、ＬＳＴＭ６１－Ｔ２から出力される隠れ状態ベクトルＨ２とを基にして、入力文１０ａからコピーされる各単語の確率分布Ｄ１を算出する。

　図６について説明する。情報処理装置は、確率分布Ｄ１に重み「０．２」を乗算した確率分布と、確率分布Ｄ２に重み「０．８」を乗算した確率分布とを加算した確率分布Ｄ３を算出する。そうすると、確率分布Ｄ３において、単語「の」の確率が最大となるため、情報処理装置は、要約文１０ｂの２文字目を「の」に設定する。

　図７について説明する。情報処理装置は、「の」のベクトルと、ＬＳＴＭ６１－Ｔ２から出力される隠れ状態ベクトルＨ２とをＬＳＴＭ６１－Ｔ３に入力することで、要約単語辞書に含まれる各単語の確率分布Ｄ２を算出する。

　情報処理装置は、隠れ状態ベクトルｈと、ＬＳＴＭ６１－Ｔ３から出力される隠れ状態ベクトルＨ３とを基にして、入力文１０ａからコピーされる各単語の確率分布Ｄ１を算出する。

　図８について説明する。情報処理装置は、確率分布Ｄ１に重み「０．２」を乗算した確率分布と、確率分布Ｄ２に重み「０．８」を乗算した確率分布とを加算した確率分布Ｄ３を算出する。そうすると、確率分布Ｄ３において、単語「方向」の確率が最大となるため、情報処理装置は、要約文１０ｂの３文字目を「方向」に設定する。

　上記のように、本実施例に係る情報処理装置によれば、図１～図８の処理を実行することで、入力文１０ａ「自然言語処理の方向性発表」から要約文１０ｂ「ＮＬＰの方向」を生成することができる。

　本実施例で用いる要約単語辞書は、図１で説明した処理によって生成された要約単語辞書であり、入力文と要約文とのペアをそれぞれ比較した結果、要約文にしか含まれない単語を、要約単語辞書に登録している。このため、図１６～図２１で説明した従来装置が用いる要約単語辞書と比較して、本実施例で用いる要約単語辞書は、サイズが小さいため、メモリ使用量を削減することができる。また、要約単語辞書のサイズが小さくなるため、従来装置と比較して、処理速度を改善することができる。

　次に、本実施例に係る情報処理装置が、図３～図８に示したエンコーダ５０およびデコーダ６０を学習する処理の一例について説明する。図９は、本実施例に係る情報処理装置の学習処理を説明するための図である。図９では一例として、学習用の入力文１４ａを「自然言語処理の方向性発表」とし、入力文１４ａとペアとなる要約文１４ｂを「ＮＬＰの方向」とする。

　エンコーダ５０には、ＬＳＴＭ５１が含まれる。ＬＳＴＭ５１は、入力文１４ａの各単語のベクトルの入力を順に受け付ける。ＬＳＴＭ５１は、単語のベクトルと、ＬＳＴＭ５１のパラメータθ_５１に基づく計算を行って、隠れ状態ベクトルを次のＬＳＴＭ５１に出力する。次のＬＳＴＭ５１では、前のＬＳＴＭ５１によって算出された隠れ状態ベクトルと、次の単語のベクトルとを基にして、次の隠れ状態ベクトルを算出する。ＬＳＴＭ５１は、入力文１４ａの各単語に対して、上記処理を繰り返し実行する。ＬＳＴＭ５１は、入力文１４ａの最後の単語が入力された際に算出する隠れ状態ベクトルを、中間表現として、デコーダ６０に出力する。

　デコーダ６０には、ＬＳＴＭ６１－Ｔ１，６１－Ｔ２，６１－Ｔ３，６１－Ｔ４が含まれる。ＬＳＴＭ６１－Ｔ１，６１－Ｔ２，６１－Ｔ３，６１－Ｔ４をまとめて、ＬＳＴＭ６１と表記する。

　ＬＳＴＭ６１は、エンコーダ５０から中間表現（ベクトル）を受け付け、要約文１４ｂの単語のベクトルの入力を受け付ける。ＬＳＴＭ６１は、中間表現と、単語のベクトルと、ＬＳＴＭ６１のパラメータθ_６１に基づく計算を行って、隠れ状態ベクトルを算出する。ＬＳＴＭ６１は、隠れ状態ベクトルを、次の単語のＬＳＴＭ６１に渡す。ＬＳＴＭ２２は、単語のベクトルが入力される度に、上記処理を繰り返し実行する。

　情報処理装置は、ＬＳＴＭ６１から出力される隠れ状態ベクトルと、要約単語辞書とを基にして、要約単語辞書に含まれる各単語の確率分布Ｄ２（図示略）を算出する。また、情報処理装置は、入力文１４ａをエンコーダ５０に入力した際に算出される隠れ状態ベクトルと、ＬＳＴＭ６１から出力される隠れ状態ベクトルとを基にして、入力文１４ａからコピーされる各単語の確率分布Ｄ１（図示略）を算出する。情報処理装置は、確率分布Ｄ１と、確率分布Ｄ２を加算した確率分布Ｄ３（図示略）を算出する。情報処理装置は、ＬＳＴＭ６１に、要約文１４ｂの各単語のベクトルを入力する度に、確率分布Ｄ３を算出する。

　ここで、情報処理装置は、要約文１４ｂの各単語を、ＬＳＴＭ６１に入力する場合に、始めに文の先頭を示す単語として「ＢＯＳ（Begin　Of　Sentence）」を入力する。また、情報処理装置は、確率分布Ｄ３との損失を算出する場合に比較する要約文１４ｂの最後を示す単語として、「ＥＯＳ（End　Of　Sentence）」を設定する。

　情報処理装置は、エンコーダ５０から出力される中間表現によって、ＬＳＴＭ６１の中間表現を更新したうえで、次の１時刻目～４時刻目までの処理を順に実行する。

　情報処理装置は、１時刻目に、エンコーダ５０のＬＳＴＭ５１の出力（中間表現）と、単語「ＢＯＳ」のベクトルを、ＬＳＴＭ６１－Ｔ１に入力することで、隠れ状態ベクトルを算出する。情報処理装置は、各単語の確率分布Ｄ３を算出する。情報処理装置は、算出した確率分布と、正解単語「ＮＬＰ」とを比較して、１時刻目の損失を算出する。

　情報処理装置は、２時刻目に、ひとつ前のＬＳＴＭ６１－Ｔ１の出力と、単語「ＮＬＰ」のベクトルを、ＬＳＴＭ６１－Ｔ２に入力することで、隠れ状態ベクトルを算出する。情報処理装置は、各単語の確率分布Ｄ３を算出する。情報処理装置は、算出した確率分布と、正解単語「の」とを比較して、２時刻目の損失を算出する。

　情報処理装置は、３時刻目に、ひとつ前のＬＳＴＭ６１－Ｔ２の出力と、単語「の」のベクトルを、ＬＳＴＭ６１－Ｔ３に入力することで、隠れ状態ベクトルを算出する。情報処理装置は、各単語の確率分布Ｄ３を算出する。情報処理装置は、算出した確率分布と、正解単語「方向」とを比較して、３時刻目の損失を算出する。

　情報処理装置は、４時刻目に、ひとつ前のＬＳＴＭ６１－Ｔ３の出力と、単語「方向」のベクトルを、ＬＳＴＭ６１－Ｔ４に入力することで、隠れ状態ベクトルを算出する。情報処理装置は、各単語の確率分布Ｄ３を算出する。情報処理装置は、算出した確率分布と、正解単語「ＥＯＳ」とを比較して、４時刻目の損失を算出する。

　情報処理装置は、１時刻目～４時刻目に算出した損失が最小化されるように、ＬＳＴＭ５１のパラメータθ_５１、ＬＳＴＭ６１のパラメータθ_６１を更新する。たとえば、情報処理装置は、１時刻目～４時刻目の損失に基づいて、対数尤度の最適化を実行することにより、ＬＳＴＭ５１のパラメータθ_５１、ＬＳＴＭ６１のパラメータθ_６１のパラメータを更新する。

　情報処理装置は、学習データに含まれる、入力文、要約文のペアを用いて、上記処理を繰り返し実行することで、ＬＳＴＭ５１のパラメータθ_５１、ＬＳＴＭ６１のパラメータθ_６１のパラメータを学習する。

　次に、本実施例に係る情報処理装置の構成の一例ついて説明する。図１０は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。図１０に示すように、この情報処理装置１００は、学習部１００Ａと、生成部１００Ｂとを有する。学習部１００Ａに含まれる損失計算部１０７、更新部１０８、生成部１００Ｂに含まれる生成部１１３は、「情報処理部」の一例である。

　たとえば、学習部１１０Ａ、生成部１００Ｂは、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）などによって実現できる。また、学習部１１０Ａ、生成部１００Ｂは、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）などのハードワイヤードロジックによっても実現できる。

　学習データ記憶部１０１、辞書情報記憶部１０３、モデル記憶部１０４は、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ（Flash　Memory）などの半導体メモリ素子や、ＨＤＤ（Hard　Disk　Drive）などの記憶装置に対応する。

　学習部１００Ａは、図１で説明した要約単語辞書を生成する。また、学習部１００Ａは、図９で説明した学習処理を実行する。学習部１００Ａは、学習データ記憶部１０１と、辞書生成部１０２と、辞書情報記憶部１０３と、モデル記憶部１０４と、エンコーダ実行部１０５ａと、デコーダ実行部１０５ｂと、算出部１０６と、損失計算部１０７と、更新部とを有する。

　学習データ記憶部１０１は、図１で説明した学習データ７０を記憶する記憶装置である。図１で説明したように、学習データ７０には、入力文１１ａと要約文１１ｂとのペア、入力文１２ａと要約文１２ｂとのペア、入力文１３ａと要約文１３ｂとのペアが含まれる。学習データ７０には、他の入力文と他の要約文とのペアが含まれていてもよい。

　辞書生成部１０２は、学習データ記憶部１０１に格納された学習データ７０の入力文と要約文とのペアをそれぞれ比較し、要約文にしか含まれない単語を、要約単語辞書に登録することで、要約単語辞書を生成する処理部である。辞書生成部１０２が、要約単語辞書を生成する処理は、図１で説明した処理に対応する。辞書生成部１０２は、要約単語辞書の情報を、辞書情報記憶部１０３に格納する。辞書生成部１０２は、頻度が閾値未満となる単語については、要約単語辞書から除外してもよい。

　また、辞書生成部１０２は、学習データ７０に含まれる各入力文を基にして、元テキスト辞書を生成する。元テキスト辞書は、「第二の辞書」の一例である。辞書生成部１０２は、生成した元テキスト辞書の情報を、辞書情報記憶部１０３に格納する。たとえば、辞書生成部１０２は、学習データ７０に含まれる各入力文の単語を集計することで、元テキスト辞書を生成する。辞書生成部１０２は、頻度が閾値未満となる単語については、元テキスト辞書から除外してもよい。

　辞書情報記憶部１０３は、要約単語辞書および元テキスト辞書を記憶する記憶装置である。図１１は、要約単語辞書のデータ構造の一例を示す図である。図１１に示すように、要約単語辞書１０３ａは、単語と、頻度とを対応付ける。要約単語辞書１０３ａの単語は、学習データ７０の入力文と要約文とのペアを比較した結果、要約文にしか含まれない単語である。頻度は、要約文に出現する単語の出現頻度である。

　図１２は、元テキスト辞書のデータ構造の一例を示す図である。図１２に示すように、元テキスト辞書１０３ｂは、単語と、頻度とを対応付ける。元テキスト辞書１０３ｂの単語は、学習データ７０の各入力文に含まれる単語である。頻度は、入力文に出現する単語の出現頻度である。

　図１０の説明に戻る。モデル記憶部１０４は、エンコーダ５０のパラメータおよびデコーダ６０のパラメータを記憶する記憶装置である。たとえば、エンコーダ５０のパラメータには、ＬＳＴＭ５１のパラメータθ_５１が含まれる。デコーダ６０のパラメータには、ＬＳＴＭ６１のパラメータθ_６１が含まれる。

　エンコーダ実行部１０５ａは、図９で説明したエンコーダ５０を実行する処理部である。たとえば、エンコーダ実行部１０５ａは、ＬＳＴＭ５１等をワークエリア（メモリ等）上に展開する。エンコーダ実行部１０５ａは、モデル記憶部１０４に記憶されたＬＳＴＭ５１のパラメータθ_５１を、ＬＳＴＭ５１に設定する。エンコーダ実行部１０５ａは、後述する更新部１０８によって、ＬＳＴＭ５１のパラメータθ_５１が更新された場合、更新されたパラメータθ_５１を、ＬＳＴＭ５１に設定する。

　ここで、エンコーダ実行部１０５ａは、辞書情報記憶部１０３に記憶された元テキスト辞書１０４ｂを取得する。エンコーダ実行部１０５ａは、学習データ７０の入力文の各単語（ベクトル）を、エンコーダ５０に入力する場合に、入力する単語が、元テキスト辞書１０３ｂに存在するか否かを判定する。エンコーダ実行部１０５ａは、入力する単語が、元テキスト辞書１０３ｂに存在する場合、単語のベクトルを、エンコーダ５０に入力する。

　一方、エンコーダ実行部１０５ａは、入力する単語が、元テキスト辞書１０３ｂに存在しない場合には、「Unknown」のベクトルを、エンコーダ５０に入力する。

　デコーダ実行部１０５ｂは、図９で説明したデコーダ６０を実行する処理部である。たとえば、デコーダ実行部１０５ｂは、ＬＳＴＭ６１等をワークエリア（メモリ等）上に展開する。デコーダ実行部１０５ｂは、モデル記憶部１０４に記憶されたＬＳＴＭ６１のパラメータθ_６１を、ＬＳＴＭ６１に設定する。デコーダ実行部１０５ｂは、後述する更新部１０８によって、ＬＳＴＭ６１のパラメータθ_６１が更新された場合、更新されたパラメータθ_６１を、ＬＳＴＭ６１に設定する。

　デコーダ実行部１０５ｂは、エンコーダ実行部１０５ａがエンコーダ５０に入力した入力文とペアとなる要約文を、学習データ７０から取得し、デコーダ６０に入力する。デコーダ実行部１０５ｂが、デコーダ６０に入力する単語を「ＢＯＳ」とする。デコーダ実行部１０５ｂは、デコーダ６０に順に入力した正解単語の情報を、損失計算部１０７に出力する。

　算出部１０６は、エンコーダ実行部１０５ａが実行するエンコーダ５０の出力結果と、デコーダ実行部１０５ｂが実行するデコーダ６０の出力結果とを基にして、各種の確率分布を算出する処理部である。

　算出部１０６は、要約単語辞書１０３ａをワークエリア（メモリ等）に展開する。算出部１０６は、ＬＳＴＭ６１から出力される隠れ状態ベクトルと、要約単語辞書１０３ａとを基にして、要約単語辞書１０３ａに含まれる各単語の確率分布Ｄ２を算出する。また、算出部１０６は、入力文をエンコーダ５０に入力した際に算出される隠れ状態ベクトルと、ＬＳＴＭ６１から出力される隠れ状態ベクトルとを基にして、入力文からコピーされる各単語の確率分布Ｄ１を算出する。情報処理装置は、確率分布Ｄ１と、確率分布Ｄ２を加算した確率分布Ｄ３を算出する。

　なお、入力文からコピーされる単語のうち、元テキスト辞書１０３ｂに含まれない単語は、「Unknown」として、確率分布Ｄ１に含まれ、確率が算出される。また、確率分布Ｄ１の単語に「Unknown」が含まれる場合、かかる「Unknown」には、入力文の先頭から何番目の単語であるかを示す情報が付与される。この先頭から何番目の単語かの情報を用いて、入力文からのコピーを行う。

　たとえば、算出部１０６は、図９で説明したように、１時刻目～４時刻目について、それぞれ確率分布Ｄ３を算出し、各時刻の確率分布Ｄ３を、損失計算部１０７に出力する。

　損失計算部１０７は、算出部１０６から取得する各時刻の確率分布Ｄ３と、デコーダ１０５実行部ｂから取得する正解単語とを比較して、各時刻の損失を算出する処理部である。損失計算部１０７は、各時刻の損失の情報を、更新部１０８に出力する。

　更新部１０８は、損失計算部１０７から取得する各時刻の損失が最小化されるように、ＬＳＴＭ５１のパラメータθ_５１、ＬＳＴＭ６１のパラメータθ_６１を更新する処理部である。たとえば、更新部１０８は、１時刻目～４時刻目の損失に基づいて、対数尤度の最適化を実行することにより、モデル記憶部１０４に格納されたＬＳＴＭ５１のパラメータθ_５１、ＬＳＴＭ６１のパラメータθ_６１のパラメータを更新する。

　生成部１００Ｂは、図３～図８で説明したように、学習済みのエンコーダ５０、デコーダ６０を用いて、入力文から要約文を生成する処理部である。生成部１００Ｂは、取得部１１０と、エンコーダ実行部１１１ａと、デコーダ実行部１１１ｂと、算出部１１２と、生成部１１３とを有する。

　取得部１１０は、入力装置等を介して、要約対象となる入力文を取得する処理部である。取得部１１０は、取得した入力文を、エンコーダ実行部１１１ａに出力する。

　エンコーダ実行部１１１ａは、図３～図８で説明したエンコーダ５０を実行する処理部である。たとえば、エンコーダ実行部１１１ａは、ＬＳＴＭ５１等をワークエリア（メモリ等）上に展開する。エンコーダ実行部１１１ａは、モデル記憶部１０４に記憶されたＬＳＴＭ５１のパラメータθ_５１を、ＬＳＴＭ５１に設定する。

　エンコーダ実行部１１１ａは、辞書情報記憶部１０３に記憶された元テキスト辞書１０４ｂを取得する。エンコーダ実行部１０５ａは、取得部１１０から受け付けた入力文の各単語（ベクトル）を、エンコーダ５０に入力する場合に、入力する単語が、元テキスト辞書１０３ｂに存在するか否かを判定する。エンコーダ実行部１１１ａは、入力する単語が、元テキスト辞書１０３ｂに存在する場合、単語のベクトルを、エンコーダ５０に入力する。

　一方、エンコーダ実行部１１１ａは、入力する単語が、元テキスト辞書１０３ｂに存在しない場合には、「Unknown」のベクトルを、エンコーダ５０に入力する。

　デコーダ実行部１１１ｂは、図３～図８で説明したデコーダ６０を実行する処理部である。たとえば、デコーダ実行部１１１ｂは、ＬＳＴＭ６１等をワークエリア（メモリ等）上に展開する。デコーダ実行部１１１ｂは、モデル記憶部１０４に記憶されたＬＳＴＭ６１のパラメータθ_６１を、ＬＳＴＭ６１に設定する。

　算出部１１２は、エンコーダ実行部１１１ａが実行するエンコーダ５０の出力結果と、デコーダ実行部１１１ｂが実行するデコーダ６０の出力結果とを基にして、各種の確率分布を算出する処理部である。

　算出部１１２は、要約単語辞書１０３ａをワークエリア（メモリ等）に展開する。算出部１１２は、ＬＳＴＭ６１から出力される隠れ状態ベクトルと、要約単語辞書１０３ａとを基にして、要約単語辞書１０３ａに含まれる各単語の確率分布Ｄ２を算出する。また、算出部１１２は、入力文をエンコーダ５０に入力した際に算出される隠れ状態ベクトルと、ＬＳＴＭ６１から出力される隠れ状態ベクトルとを基にして、入力文からコピーされる各単語の確率分布Ｄ１を算出する。情報処理装置は、確率分布Ｄ１と、確率分布Ｄ２を加算した確率分布Ｄ３を算出する。

　算出部１１２は、各時刻の確率分布Ｄ３を、生成部１１３に出力する。

　生成部１１３は、算出部１１２から出力される各時刻の確率分布Ｄ３を基にして、要約文の単語を生成する処理部である。生成部１１３は、各時刻において、確率分布Ｄ３に確率のうち、最大の確率に対応する単語を要約文の単語として生成する処理を繰り返し実行する。たとえば、ｌ時刻目において、確率分布Ｄ３の各単語の確率のうち、「ＮＬＰ」の確率が最大となる場合には、要約文の先頭からｌ番目の単語として「ＮＬＰ」を生成する。

　次に、本実施例に係る情報処理装置１００の処理手順の一例について説明する。図１３は、本実施例に係る情報処理装置の処理手順を示すフローチャートである。図１３に示すように、情報処理装置１００の学習部１００Ａは、学習データを取得し、学習データ記憶部１０１に格納する（ステップＳ１０１）。

　情報処理装置１００の辞書生成部１０２は、学習データの入力文に出現した単語を基にして、元テキスト辞書１０３ｂを生成し、辞書情報記憶部１０３に格納する（ステップＳ１０２）。

　辞書生成部１０２は、要約単語辞書生成処理を実行する（ステップＳ１０３）。辞書生成部１０２は、要約単語辞書１０３ａを、辞書情報記憶部１０３に格納する（ステップＳ１０４）。

　学習部１００Ａは、学習処理を実行する（ステップＳ１０５）。情報処理装置１００の取得部１１０は、要約文の生成対象となる入力文を取得する（ステップＳ１０６）。生成部１００Ｂは、生成処理を実行する（ステップＳ１０７）。生成部１００Ｂは、要約文を出力する（ステップＳ１０８）。

　次に、図１３のステップＳ１０３で説明した要約単語辞書生成処理の一例について説明する。図１４は、要約単語辞書生成処理の処理手順を示すフローチャートである。図１４に示すように、情報処理装置１００の辞書生成部１０２は、学習データ記憶部１０１から、学習データと、出現頻度の閾値Ｆとの取得する（ステップＳ２０１）。

　辞書生成部１０２は、学習データから、未処理の入力文と要約文とのペアｔを取得する（ステップＳ２０２）。ペアｔの要約文中の未処理の単語ｗを取得する（ステップＳ２０３）。辞書生成部１０２は、単語ｗがペアｔの入力文の単語集合に含まれる場合には（ステップＳ２０４，Ｙｅｓ）、ステップＳ２０６に移行する。

　一方、辞書生成部１０２は、単語ｗがペアｔの入力文の単語集合に含まれない場合には（ステップＳ２０４，Ｎｏ）、要約単語辞書の単語ｗの出現回数に１を加算する（ステップＳ２０５）。

　辞書生成部１０２は、ペアｔ中の要約文に未処理の単語が含まれる場合には（ステップＳ２０６，Ｙｅｓ）、ステップＳ２０３に移行する。一方、辞書生成部１０２は、ペアｔ中の要約文に未処理の単語が含まれない場合には（ステップＳ２０６，Ｎｏ）、ステップＳ２０７に移行する。

　辞書生成部１０２は、学習データに未処理のペアがある場合には（ステップＳ２０７，Ｙｅｓ）、ステップＳ２０２に移行する。一方、辞書生成部１０２は、学習データに未処理のペアが場合には（ステップＳ２０７，Ｎｏ）、ステップＳ２０８に移行する。

　辞書生成部１０２は、出現回数が閾値Ｆ以上の要約単語辞書中の単語を最終の要約単語辞書として出力する（ステップＳ２０８）。

　次に、本実施例に係る情報処理装置１００の効果について説明する。情報処理装置１００は、Ｐｏｉｎｔｅｒ－Ｇｅｎｅｒａｔｏｒで使用する要約単語辞書１０３ａを生成する場合に、入力文と要約文とのペアをそれぞれ比較し、要約文にしか含まれない単語を、要約単語辞書１０３ａに登録する。これによって、要約単語辞書１０３ａのデータ量を削減することができ、メモリ使用量を削減することができる。

　情報処理装置１００は、要約文のうち、入力文に含まれていない単語の頻度を集計し、頻度が所定の頻度以上となる単語を、要約単語辞書１０３ａに登録することで、要約単語辞書１０３ａのデータ量を更に削減することができる。

　情報処理装置１００は、入力文からコピーされる各単語の確率分布Ｄ１と、要約単語辞書１０３ａに含まれる各単語の確率分布Ｄ２とを加算した確率分布Ｄ３を基にして、要約文の単語を特定する。これによって、要約単語辞書１０３ａに含まれる単語、または、入力文の単語によって、要約文を生成することができる。

　次に、上記実施例に示した情報処理装置１００と同様の機能を実現するコンピュータのハードウェア構成の一例について順に説明する。

　図１５は、情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。図１５に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ２０１と、ユーザからのデータの入力を受け付ける入力装置２０２と、ディスプレイ２０３と、読み取り装置２０４とを有する。また、コンピュータ２００は、ネットワークを介して、外部装置との間でデータの授受を行う通信装置２０５とを有する。コンピュータ２００は、各種情報を一時記憶するＲＡＭ２０６と、ハードディスク装置２０７とを有する。そして、各装置２０１～２０７は、バス２０８に接続される。

　ハードディスク装置２０７は、辞書生成プログラム２０７ａ、学習プログラム２０７ｂ、生成プログラム２０７ｃを有する。ＣＰＵ２０１は、辞書生成プログラム２０７ａと、学習プログラム２０７ｂと、生成プログラム２０７ｃとを読み出してＲＡＭ２０６に展開する。

　辞書プログラム２０７ａは、辞書生成プロセス２０６ａとして機能する。学習プログラム２０７ｂは、学習プロセス２０６ｂとして機能する。生成プログラム２０７ｃは、生成プロセス２０６ｃとして機能する。

　辞書生成プロセス２０６ａの処理は、辞書生成部１０２の処理に対応する。学習プロセス２０６ｂの処理は、学習部１００Ａ（辞書生成部１０２を除く）の処理に対応する。生成プロセス２０６ｃの処理は、生成部１００Ｂの処理に対応する。

　なお、各プログラム２０７ａ～２０７ｃについては、必ずしも最初からハードディスク装置２０７に記憶させておかなくてもよい。例えば、コンピュータ２００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ２００が各プログラム２０７ａ～２０７ｃを読み出して実行するようにしてもよい。

　　１００　　情報処理装置
　　１００Ａ　学習部
　　１００Ｂ　生成部
　　１０１　　学習データ記憶部
　　１０２　　辞書生成部
　　１０３　　辞書情報記憶部
　　１０４　　モデル記憶部
　　１０５ａ，１１１ａ　エンコーダ実行部
　　１０５ｂ，１１１ｂ　デコーダ実行部
　　１０６、１１２　　算出部
　　１０７　　損失計算部
　　１０８　　更新部
　　１１０　　取得部
　　１１３　　生成部

Claims

　第一の文書のうち、第二の文書に含まれていない単語を抽出し、
　抽出した前記単語を第一の辞書に登録し、
　第二の文書を構成する単語を再帰型のエンコーダに順番に入力することで中間表現ベクトルを算出し、
　前記第一の辞書に登録された各単語の確率分布を算出する再帰型のデコーダに、前記中間表現ベクトルを入力した結果を基にして、第一の確率分布を算出し、
　第二の文書を構成する各単語を前記再帰型のエンコーダに入力することで算出される隠れ状態ベクトルと、前記再帰型のデコーダから出力される隠れ状態ベクトルとを基にして、前記第二の文書を構成される単語の第二の辞書の第二の確率分布を算出し、
　前記第一の確率分布と、前記第二の確率分布とを基にして、前記第一の文書を構成する単語を生成または学習する
　処理をコンピュータが実行することを特徴とする情報処理方法。
　前記単語を抽出する処理は、入力文と、前記入力文を要約した要約文との組を取得し、前記要約文のうち、前記入力文に含まれていない単語を抽出することを特徴とする請求項１に記載の情報処理方法。
　前記単語を辞書に登録する処理は、前記要約文のうち、前記入力文に含まれていない単語の頻度を集計し、頻度が所定の頻度以上となる単語を、前記第一の辞書に登録することを特徴とする請求項２に記載の情報処理方法。
　前記単語を生成する処理は、第一の重みを乗算した前記第一の確率分布と、前記第一の重みよりも小さい第二の重みを乗算した前記第二の確率分布とを加算した確率分布を基にして、前記第一の文書を構成する単語を生成することを特徴とする請求項１、２または３に記載の情報処理方法。
　第一の文書のうち、第二の文書に含まれていない単語を抽出し、
　抽出した前記単語を第一の辞書に登録し、
　第二の文書を構成する単語を再帰型のエンコーダに順番に入力することで中間表現ベクトルを算出し、
　前記第一の辞書に登録された各単語の確率分布を算出する再帰型のデコーダに、前記中間表現ベクトルを入力した結果を基にして、第一の確率分布を算出し、
　第二の文書を構成する各単語を前記再帰型のエンコーダに入力することで算出される隠れ状態ベクトルと、前記再帰型のデコーダから出力される隠れ状態ベクトルとを基にして、前記第二の文書を構成される単語の第二の辞書の第二の確率分布を算出し、
　前記第一の確率分布と、前記第二の確率分布とを基にして、前記第一の文書を構成する単語を生成または学習する
　処理をコンピュータに実行させることを特徴とする情報処理プログラム。
　前記単語を抽出する処理は、入力文と、前記入力文を要約した要約文との組を取得し、前記要約文のうち、前記入力文に含まれていない単語を抽出することを特徴とする請求項５に記載の情報処理プログラム。
　前記単語を辞書に登録する処理は、前記要約文のうち、前記入力文に含まれていない単語の頻度を集計し、頻度が所定の頻度以上となる単語を、前記第一の辞書に登録することを特徴とする請求項６に記載の情報処理プログラム。
　前記単語を生成する処理は、第一の重みを乗算した前記第一の確率分布と、前記第一の重みよりも小さい第二の重みを乗算した前記第二の確率分布とを加算した確率分布を基にして、前記第一の文書を構成する単語を生成することを特徴とする請求項５、６または７に記載の情報処理プログラム。
　第一の文書のうち、第二の文書に含まれていない単語を抽出し、抽出した前記単語を第一の辞書に登録する辞書生成部と、
　第二の文書を構成する単語を再帰型のエンコーダに順番に入力することで中間表現ベクトルを算出するエンコーダ実行部と、
　前記第一の辞書に登録された各単語の確率分布を算出する再帰型のデコーダに、前記中間表現ベクトルを入力した結果を基にして、第一の確率分布を算出し、第二の文書を構成する各単語を前記再帰型のエンコーダに入力することで算出される隠れ状態ベクトルと、前記再帰型のデコーダから出力される隠れ状態ベクトルとを基にして、前記第二の文書を構成される単語の第二の辞書の第二の確率分布を算出する算出部と、
　前記第一の確率分布と、前記第二の確率分布とを基にして、前記第一の文書を構成する単語を生成または学習する情報処理部と
　を有することを特徴とする情報処理装置。
　前記辞書生成部は、入力文と、前記入力文を要約した要約文との組を取得し、前記要約文のうち、前記入力文に含まれていない単語を抽出することを特徴とする請求項９に記載の情報処理装置。
　前記辞書生成部は、前記要約文のうち、前記入力文に含まれていない単語の頻度を集計し、頻度が所定の頻度以上となる単語を、前記第一の辞書に登録することを特徴とする請求項１０に記載の情報処理装置。
　前記情報処理部は、第一の重みを乗算した前記第一の確率分布と、前記第一の重みよりも小さい第二の重みを乗算した前記第二の確率分布とを加算した確率分布を基にして、前記第一の文書を構成する単語を生成することを特徴とする請求項９、１０または１１に記載の情報処理装置。