WO2023144872A1

WO2023144872A1 - 文書分類装置、文書分類方法、および文書分類プログラム

Info

Publication number: WO2023144872A1
Application number: PCT/JP2022/002597
Authority: WO
Inventors: 昌史小山田; 太郎矢野; 邦紘竹岡; 康佑秋元
Original assignee: 日本電気株式会社
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2023-08-03

Abstract

分類対象の文書の分類を高精度に安定して行うために、文書分類装置（１）は、文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、１または複数の生成戦略を選択する戦略選択部（１１）と、戦略選択部（１１）が選択する生成戦略に従って、分類先候補に関連する文である仮説文を生成する仮説文生成部（１２）と、文書と仮説文の含意関係に基づき、文書の分類先を決定する分類部（１３）と、を備える。

Description

文書分類装置、文書分類方法、および文書分類プログラム

　文書を自動で分類する文書分類装置等に関する。

　近時では、様々な内容のデータが大量に収集され、蓄積されるようになっており、これに伴って、そのようなデータを自動で分類する技術が求められている。例えば、下記の非特許文献１には、ゼロショット分類という手法によってテキストに自動でラベルを関連付ける技術が開示されている。

　より詳細には、非特許文献１の技術では、まず、分類対象のテキストから前提文を生成すると共に、分類先候補のラベルに関連する仮説文を生成する。そして、生成した前提文と仮説文を含意モデルに入力することにより、分類対象のテキストに対する当該ラベルの当てはまり度合いを判定する。含意モデルは、前提文が仮説文を含意する、つまり同じ内容を含むか否かを機械学習することにより構築されたモデルである。

Wenpeng Yin, Jamaal Hay, Dan Roth、"Benchmarking Zero-shot Text Classification: Datasets, Evaluation and Entailment Approach", arXiv:1909.00161v1 [cs.CL], August 31, 2019

　非特許文献１の技術は、各ラベルに対応する仮説文をどのようなものとするかによって判定精度が左右され、分類の精度と安定性に改善の余地がある。例えば、「スポーツ」というラベルについて、「これはスポーツに関する文章である」という仮説文を生成した場合と、「これはスポーツという話題に言及している」という仮説文を生成した場合とでは、含意モデルの出力値が異なる。したがって、同じ「スポーツ」というラベルであっても、何れの仮説文を生成するかにより、当てはまり度合いの判定結果も異なることになる。

　本発明の一態様は、このような問題に鑑みてなされたものであり、その目的の一例は、分類対象の文書の分類を高精度に安定して行うことを可能にする技術を提供することにある。

　本発明の一側面に係る文書分類装置は、文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、１または複数の生成戦略を選択する戦略選択手段と、前記戦略選択手段が選択する前記生成戦略に従って、前記分類先候補に関連する文である仮説文を生成する仮説文生成手段と、前記文書と前記仮説文の含意関係に基づき、前記文書の分類先を決定する分類手段と、を備える。

　本発明の一側面に係る文書分類方法は、少なくとも１つのプロセッサが、文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、１または複数の生成戦略を選択することと、前記選択した生成戦略に従って、前記分類先候補に関連する文である仮説文を生成することと、前記文書と前記仮説文の含意関係に基づき、前記文書の分類先を決定することと、を含む。

　本発明の一側面に係る文書分類プログラムは、コンピュータを、文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、１または複数の生成戦略を選択する戦略選択手段、前記戦略選択手段が選択する前記生成戦略に従って、前記分類先候補に関連する文である仮説文を生成する仮説文生成手段、および前記文書と前記仮説文の含意関係に基づき、前記文書の分類先を決定する分類手段、として機能させる。

　本発明の一態様によれば、分類対象の文書の分類を高精度に安定して行うことが可能になる。

本発明の例示的実施形態１に係る文書分類装置の構成を示すブロック図である。本発明の例示的実施形態１に係る文書分類方法の流れを示すフロー図である。本発明の例示的実施形態２に係る文書分類方法により文書を分類した例を示す図である。本発明の例示的実施形態２に係る文書分類装置の構成を示すブロック図である。生成戦略保持部に格納される生成戦略の一例を示す図である。言語理解モデルの生成方法を示す図である。履歴情報の例を示す図である。上記文書分類装置が実行する処理の流れを示すフロー図である。本発明の各例示的実施形態に係る各装置の各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータの一例を示す図である。

　〔例示的実施形態１〕
　本発明の第１の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。

　（文書分類装置の構成）
　本例示的実施形態に係る文書分類装置１の構成について、図１を参照して説明する。図１は、文書分類装置１の構成を示すブロック図である。図１に示すように、文書分類装置１は、戦略選択部１１と仮説文生成部１２と分類部１３とを備えている。

　戦略選択部１１は、文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、１または複数の生成戦略を選択する。

　仮説文生成部１２は、上記戦略選択部１１が選択する上記生成戦略に従って、上記分類先候補に関連する文である仮説文を生成する。

　分類部１３は、上記文書と上記仮説文の含意関係に基づき、上記文書の分類先を決定する。

　以上のように、本例示的実施形態に係る文書分類装置１においては、文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、１または複数の生成戦略を選択する戦略選択部１１と、戦略選択部１１が選択する上記生成戦略に従って、上記分類先候補に関連する文である仮説文を生成する仮説文生成部１２と、上記文書と上記仮説文の含意関係に基づき、上記文書の分類先を決定する分類部１３と、を備える、という構成が採用されている。この構成によれば、分類対象の文書の分類を高精度に安定して行うことができる。

　（文書分類プログラム）
　上述の文書分類装置１の機能は、プログラムによって実現することもできる。本例示的実施形態に係る文書分類プログラムは、コンピュータを、文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、１または複数の生成戦略を選択する戦略選択手段、上記戦略選択手段が選択する上記生成戦略に従って、上記分類先候補に関連する文である仮説文を生成する仮説文生成手段、および上記文書と上記仮説文の含意関係に基づき、上記文書の分類先を決定する分類手段、として機能させる。この文書分類プログラムによれば、分類対象の文書の分類を高精度に安定して行うことができる。

　（文書分類方法の流れ）
　本例示的実施形態に係る文書分類方法の流れについて、図２を参照して説明する。図２は、文書分類方法の流れを示すフロー図である。なお、この文書分類方法における各ステップの実行主体は、文書分類装置１が備えるプロセッサであってもよいし、他の装置が備えるプロセッサであってもよく、各ステップの実行主体がそれぞれ異なる装置に設けられたプロセッサであってもよい。

　Ｓ１１では、少なくとも１つのプロセッサが、文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、１または複数の生成戦略を選択する。

　Ｓ１２では、少なくとも１つのプロセッサが、上記選択した生成戦略に従って、上記分類先候補に関連する文である仮説文を生成する。

　Ｓ１３では、少なくとも１つのプロセッサが、上記文書と上記仮説文の含意関係に基づき、上記文書の分類先を決定する。

　以上のように、本例示的実施形態に係る文書分類方法は、少なくとも１つのプロセッサが、文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、１または複数の生成戦略を選択することと、上記選択した生成戦略に従って、上記分類先候補に関連する文である仮説文を生成することと、上記文書と上記仮説文の含意関係に基づき、上記文書の分類先を決定することと、を含む。この文書分類方法によれば、分類対象の文書の分類を高精度に安定して行うことができる。

　〔例示的実施形態２〕
　本発明の第２の例示的実施形態について、図面を参照して詳細に説明する。

　（文書分類方法の概要）
　本例示的実施形態に係る文書分類方法（以下、本方法と呼ぶ）の概要を図３に基づいて説明する。図３は、本方法により文書を分類した例を示す図である。図３の例では、入力データ１として文書ｘ_１とその分類先候補であるラベル集合Ｌ_１が与えられていると共に、入力データ２として文書ｘ_２とその分類先候補であるラベル集合Ｌ_２が与えられている。

　なお、分類先はトピックと呼ぶこともでき、文書ｘの分類は、文書ｘのトピックを推定する処理ということもできる。また、文書ｘが会話文から抽出されたものであり、ラベル集合Ｌが発話者の感情を示すラベルの集合である場合、文書ｘの分類は発話者の感情の推定と言い換えることもできる。また、ラベル集合Ｌが状況を示すラベルの集合である場合、文書ｘの分類は、文書ｘが示す状況の推定と言い換えることもできる。

　入力データ１に含まれる文書ｘ_１は分類対象の文書であり、会議等の議事録から抽出された議事録文書である。具体的には、文書ｘ_１は「ビール好き。チワワを２匹、飼っている。」というテキストデータである。また、ラベル集合Ｌ_１は、文書ｘ_１を分類する分類先候補を示し、図３に示すラベル集合Ｌ_１には、お酒、スポーツ、およびペットという３つの候補が含まれている。図３では、これらの候補のうち「お酒」（以下、候補ｌ_１と呼ぶ）について、文書ｘ_１の分類先としての妥当性を評価している。

　本方法では、上記の評価を行うにあたり、まず、分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、１または複数の生成戦略を選択する。図３の例では、生成戦略１および２という２つの生成戦略の中から１つの生成戦略を選択している。

　ここで生成戦略とは、分類先候補に関連した仮説文を生成するための戦略である。図３に示す生成戦略は、分類先候補の文字列を組み込むことにより仮説文が生成される、仮説文のテンプレートである。具体的には、生成戦略１は「このような人はｌを好む。」というテキストデータである。このテキストデータにおける「ｌ」の部分に分類先候補の文字列を組み込むことにより仮説文が生成される。生成戦略２についても同様である。

　また、図３に示すように、生成戦略１には適用条件が定められている。その適用条件とは、分類対象の文書ｘが議事録文書であり、かつ、分類先候補ｌが趣味に関するものである、というものである。図３に示す文書ｘ_１は議事録文書であり、かつ候補ｌ_１は「お酒」であり趣味に関するから、上述した生成戦略１の適用条件を満たす。このため、本方法では、生成戦略１に従って、候補ｌ_１すなわち「お酒」に関する「このような人はお酒を好む。」という仮説文を生成している。

　次に、本方法では、仮説文と文書との含意関係（entailment）について評価する。図３の例では、「ビール好き。チワワを２匹、飼っている。」という分類対象の文書ｘ_１が、「このような人はお酒を好む。」という仮説文を含意するか評価し、０．９３という評価結果を得ている。

　詳細は後記「言語理解モデル」で説明するが、この数値は文書ｘ_１が仮説文を含意する度合いを示しており、その値が１に近いほどその度合いが高い。以下では、この数値を含意スコアと呼ぶ。なお、文書ｘ_１が仮説文を含意する度合いは、文書がｘ_１仮説文を含意する可能性の高さ、と言い換えることができる。また、文書ｘ_１が仮説文を含意する度合いは、文書ｘ_１を前提文としたときに仮説文が正しい内容である可能性の高さと言い換えることもできる。

　仮説文と分類対象の文書ｘ_１とが同じ意味を含む場合、あるいは、文書ｘ_１を前提文としたときに仮説文が正しい内容であるといえる場合、その仮説文に関連する分類先候補ｌ_１が分類対象の文書ｘ_１に適合している可能性が高いといえる。このため、含意スコアは、分類対象の文書ｘ_１を分類先候補ｌ_１に分類することの妥当性を示しているともいえる。

　例えば、「このような人はお酒を好む。」という仮説文と、分類対象の文書ｘ_１の含意スコアは０．９３である。０．９３という含意スコアはその最大値である１に近く、したがってこの含意スコアは文書ｘ_１が上記仮説文を含意する可能性が高いことを示している。また、この含意スコアは、文書ｘ_１を、「このような人はお酒を好む。」という仮説文の元になった「お酒」という分類先候補ｌ_１に分類することの妥当性が高いことを示している。

　一方、入力データ２に含まれる文書ｘ_２は、病院等における診断履歴から抽出された診断履歴文書である。具体的には、文書ｘ_２は「１日前には倦怠感や食欲不振も出現。」というテキストデータである。また、ラベル集合Ｌ_２は、文書ｘ_２を分類する分類先候補を示し、図３に示すラベル集合Ｌ_２には、気だるさおよび近日中という２つの候補が含まれている。図３では、これらの候補のうち「気だるさ」（以下、候補ｌ_２と呼ぶ）について、文書ｘ_２の分類先としての妥当性を評価している。

　生成戦略１と同様に生成戦略２にも適用条件が定められている。その適用条件とは、分類対象の文書ｘが医療関連文書であり、かつ、分類先候補ｌが症状に関するものである、というものである。図３に示す文書ｘ_２は診断履歴文書すなわち医療関連文書であり、かつ候補ｌ_２は「気だるさ」であり症状に関するから、生成戦略２の適用条件を満たす。このため、本方法では、生成戦略２に従って、「気だるさ」に関する「この人は気だるさを訴えている。」という仮説文を生成している。

　仮説文を生成した後は、入力データ１と同様に評価を行う。すなわち、「１日前には倦怠感や食欲不振も出現。」という分類対象の文書ｘ_２が、「この人は気だるさを訴えている。」という仮説文を含意するか評価する。この評価結果は０．７７であり、人が文書ｘ_２の分類を「気だるさ」とすることを妥当と感じるか否かの感覚に概ね沿ったものとなっている。

　このように、本方法によれば、複数の生成戦略の中から選択した生成戦略に従って生成した仮説文を生成するので、妥当な生成戦略に従って生成した仮説文を用いて、文書を分類先候補に分類することの妥当性を精度よく評価することが可能になる。例えば、上述の入力データ２について、本方法を適用することなく、機械的に生成戦略１を適用して仮説文を生成したとする。この場合、生成される仮説文は「このような人は気だるさを好む。」という不自然なものとなり、本方法を適用した場合と比べて妥当性の評価結果の精度は低くなると考えられる。

　以上のような処理を、ラベル集合Ｌ_１、Ｌ_２に含まれる各分類先候補について行うことにより、文書ｘ_１、ｘ_２を適切に分類することができる。例えば、含意スコアが予め設定した閾値を超える候補を自動で分類先に決定してもよいし、各候補の含意スコアを表示装置等に出力させ、文書ｘ_１、ｘ_２の分類先として採用するものをユーザに選択させてもよい。なお、１つの文書に対して、複数の分類先を決定してもよい。例えば、図３の文書ｘ_１について、「お酒」と「ペット」の２つを分類先に決定してもよい。

　決定した分類先は、文書ｘ_１、ｘ_２と対応付けて記録しておけばよい。分類先を示す情報が対応付けられた文書ｘ_１、ｘ_２については、その分類先を用いた検索等が可能になる等、利活用の幅が広がる。また、分類先を示す情報が対応付けられた文書ｘ_１、ｘ_２は、文書の分類先を機械学習するための教師データとして利用することもできる。

　（文書分類装置の構成）
　本例示的実施形態に係る文書分類装置２の構成を図４に基づいて説明する。図４は、文書分類装置２の構成を示すブロック図である。文書分類装置２は、文書を分類するための装置であり、図示のように、文書分類装置２の各部を統括して制御する制御部２０と、文書分類装置２が使用する各種データを記憶する記憶装置である記憶部２１を備えている。また、文書分類装置２は、文書分類装置２に対するユーザの入力操作を受け付ける入力部２２と、文書分類装置２がデータを出力するための出力部２３を備えている。なお、文書分類装置２は、文書の分類のための専用の装置であってもよいし、文書の分類以外の用途にも使用できる汎用的な装置であってもよい。

　また、制御部２０には、データ取得部２０１、戦略選択部（戦略選択手段）２０２、仮説文生成部（仮説文生成手段）２０３、分類部（分類手段）２０４、および履歴記録部（履歴記録手段）２０５が含まれている。そして、記憶部２１には、生成戦略保持部２１１が含まれていると共に、言語理解モデル２１２と履歴情報２１３が記憶されている。なお、履歴記録部２０５と履歴情報２１３については後記「履歴情報に基づく生成戦略の選択方法」で説明する。

　データ取得部２０１は、分類の対象となる文書を取得する。また、データ取得部２０１は、文書を分類する分類先候補を取得する。例えば、データ取得部２０１は、入力部２２を介して入力されたテキストデータを分類の対象となる文書として取得し、同じく入力部２２を介して入力されたラベル集合を分類先候補として取得してもよい。

　戦略選択部２０２は、文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、１または複数の生成戦略を選択する。より詳細には、戦略選択部２０２は、記憶部２１の生成戦略保持部２１１に記録されている生成戦略の中から１または複数の生成戦略を選択する。生成戦略の選択方法の詳細は後記「生成戦略とその選択方法」で説明する。

　仮説文生成部２０３は、文書の分類先候補に関連する文である仮説文を生成する。より詳細には、仮説文生成部２０３は、戦略選択部２０２が選択する生成戦略に従って、データ取得部２０１が取得した分類先候補から仮説文を生成する。

　分類部２０４は、分類対象の文書と、その文章の分類先候補に関連する仮説文の含意関係に基づき、分類対象の文書の分類先を決定する。より詳細には、分類部２０４は、評価の対象となる仮説文と文書の組を、記憶部２１に記憶されている言語理解モデル２１２に入力し、当該文書を当該仮説文に対応する分類先候補に分類することの妥当性を示す指標値である含意スコアを算出し、この含意スコアを用いて分類先を決定する。なお、含意スコアは、分類対象の文書を分類すべき分類先を示しているといえる。このため、分類部２０４は、分類対象の文書の分類先を示す情報として含意スコアを出力してもよい。言語理解モデル２１２の詳細は、後記「言語理解モデル」で説明する。

　以上のように、本例示的実施形態に係る文書分類装置２においては、分類対象の文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、１または複数の生成戦略を選択する戦略選択部２０２と、戦略選択部２０２が選択する生成戦略に従って、分類先候補に関連する文である仮説文を生成する仮説文生成部２０３と、分類対象の文書と仮説文の含意関係に基づき、分類対象の文書の分類先を決定する分類部２０４と、を備える、という構成が採用されている。この構成によれば、高精度な妥当性の分類結果を安定して得ることができるという効果が得られる。

　なお、分類対象の文書は、何らかの意味を有する文字列であればよく、その内容、形式、言語等は特に限定されない。また、分類対象の文書の出所も特に限定されない。例えば、会議等の議事録や、アンケート結果、ＳＮＳ（Social Networking Service）等に対する投稿等から抽出した文字列を分類対象の文書としてもよいし、音声認識によってテキスト化した発話内容を示す文書を分類対象としてもよい。また、各種データベースなどのデータソースから抽出したテキストをそのまま分類対象の文書としてもよいし、抽出したテキストから生成した前提文を分類対象の文書としてもよい。

　（生成戦略とその選択方法）
　図５は、生成戦略保持部２１１に格納される生成戦略の一例を示す図である。図５に示すテーブルには、生成戦略１～３が含まれている。生成戦略１は「このような人はｌを好む。」というテキストデータである。このテキストデータにおける「ｌ」の部分に分類先候補の文字列を組み込むことにより仮説文が生成される。生成戦略２、３についても同様である。このような生成戦略を用意しておくことにより、仮説文生成部２０３は、分類先候補に関連する仮説文を容易に生成することができる。

　また、図５に示すテーブルには、各生成戦略の適用条件が示されている。例えば、生成戦略１の適用条件は、分類対象の文書ｘが議事録文書であり、かつ、分類先候補ｌが趣味に関するものであるというものである。このように、生成戦略と対応付けてその適用条件を記録しておくことにより、戦略選択部２０２は適用条件を満たす生成戦略を選択することができる。このような生成戦略の選択方法は、予め定義した条件すなわちルールに従った選択方法であるから、ルールベースを用いた選択方法であるといえる。

　なお、分類対象の文書ｘがどのような文書であるかを示す属性情報は、例えば予めメタ情報として文書ｘに対応付けておいてもよい。また、文書ｘに含まれる単語などから自動で属性情報を生成してもよい。分類先候補ｌの属性情報についても同様である。

　このように、戦略選択部２０２は、分類対象の文書が所定の条件を満たし、かつ、分類先候補が所定の条件を満たす場合に、それらの条件に対応する生成戦略を選択してもよい。これにより、分類対象の文書と分類先候補の両方に適合した生成戦略を選択することができる。

　また、戦略選択部２０２は、文書と分類先候補の少なくとも何れかが所定の条件を満たす場合に、当該条件に対応する生成戦略を選択してもよい。この構成によれば、例示的実施形態１に係る文書分類装置１の奏する効果に加えて、分類対象の文書と分類先候補の少なくとも何れかに適合した生成戦略を選択することができるという効果が得られる。

　無論、戦略選択部２０２は、分類先候補については考慮せず、分類対象の文書が所定の条件を満たす場合に、当該条件に対応する生成戦略を選択してもよい。この場合、各生成戦略には分類対象の文書についての条件を対応付けておけばよい。これにより、例示的実施形態１に係る文書分類装置１の奏する効果に加えて、分類対象の文書に適合した生成戦略を選択することができるという効果が得られる。

　また、戦略選択部２０２は、分類対象の文書については考慮せず、分類先候補が所定の条件を満たす場合に、当該条件に対応する生成戦略を選択してもよい。この場合、各生成戦略には分類先候補についての条件を対応付けておけばよい。これにより、例示的実施形態１に係る文書分類装置１の奏する効果に加えて、分類先候補に適合した生成戦略を選択することができるという効果が得られる。

　また、図５に示す生成戦略３には適用条件が対応付けられていない。汎用的な生成戦略については、生成戦略３のように適用条件を設定しないようにしてもよい。例えば、戦略選択部２０２は、適用条件を満たす生成戦略が存在しない場合に、適用条件が設定されていない生成戦略を選択してもよい。また、例えば、戦略選択部２０２は、適用条件が設定されていない生成戦略は無条件で選択し、それに加えて適用条件を満たす生成戦略も選択してもよい。

　なお、仮説文の生成方法は上記の例に限定されない。例えば、仮説文生成部２０３は、単語や文章等の文字列を入力することによりその文字列に関連した文書を出力する文書生成モデルを用いて仮説文を生成してもよい。文書生成モデルとしては、例えばエンコーダデコーダモデル等が適用できる。ここで適用するエンコーダデコーダモデルは、入力されたテキストデータをエンコード（例えばベクトルに変換）し、変換後のデータをデコードする（テキストデータに戻す）ことにより、入力されたテキストデータに関連する仮説文を出力するものである。
　文書生成モデルを適用する場合、分類対象の文書の属性情報（例えばカテゴリや抽出元等）や、分類先候補の属性情報に応じた複数の文書生成モデル（例えば上述のようなエンコーダデコーダモデル）を予め用意しておけばよい。これにより、分類対象の文書や分類先候補に応じた文書生成モデルを適用して、分類対象の文書や分類先候補に応じた文書を生成することができる。この場合、分類対象の文書および分類先候補の少なくとも何れかに応じた文書生成モデルを選択することが生成戦略を選択することに相当する。
　また、トピックなどを条件として入力することができるコンディショナルな（条件付きの）エンコーダデコーダと呼ばれる文書生成モデルを適用してもよい。この場合、分類対象の文書や分類先候補に応じた条件を入力することにより、それらに応じた文書を生成することができる。この場合、分類対象の文書および分類先候補の少なくとも何れかに応じた条件を決定することが生成戦略を選択することに相当する。

　（言語理解モデル）
　言語理解モデル２１２は、評価の対象となる仮説文と文書の組が入力されたときに、その文書が仮説文を含意する度合いを示す指標値である含意スコアを出力するように構築されたモデルである。言語理解モデル２１２の生成方法を図６に基づいて説明する。図６は、言語理解モデル２１２の生成方法を示す図である。

　言語理解モデル２１２は、文書をその文脈に沿ったベクトルに変換する事前学習言語モデルと、文書を分類する言語タスクモデルとを組み合わせたものであってもよい。この場合、事前学習言語モデルにより分類対象の文書と仮説文のそれぞれをベクトル化し、言語タスクモデルにより、それらのベクトルから分類対象の文書が仮説文を含意する度合いを示す含意スコアを算出する。

　このような言語理解モデル２１２を生成する場合、図６に示すように、まず、大量のテキストデータ６１から事前学習言語モデル６２を生成する。事前学習言語モデル６２の生成には、自己教師学習の手法を用いることが好ましい。これにより、テキストデータに正解データのラベル付けを行うことなく、文書をその文脈に沿ったベクトルに変換するための学習を行うことができる。例えば、ウェブ上の膨大なテキストデータをそのまま学習に利用することもできる。

　次に、ラベルありの教師データ６３を用いて、事前学習言語モデル６２により生成されるベクトルを分類するための言語タスクモデル６５を生成する。具体的には、教師データ６３としては、文書が仮説文を含意するか否かが既知の文書と仮説文の組に対し、その組の文書が仮説文を含意するか否かを示すラベルを付したものを適用すればよい。教師データ６３として、例えば、ＳＮＬＩ（Stanford Natural Language Inference）や、ＸＮＬＩ（Cross-lingual Natural Language Inference）等を利用することもできる。

　これにより、入力した文書が入力した仮説文を含意する度合いを例えば１～０の数値で表した出力値を出力する言語理解モデル２１２を生成することができる。なお、図６に示すように、事前学習言語モデル６２をそのまま用いるのではなく、教師データ６３を用いて事前学習言語モデル６２をチューニングすることにより、言語タスクモデル６５への適合性を高めた事前学習言語モデル６４を用いてもよい。

　（複数の仮説文が生成された場合の評価）
　戦略選択部２０２は、複数の生成戦略を選択してもよい。またこの場合、仮説文生成部２０３は、各生成戦略を用いて複数の仮説文を生成してもよく、分類部２０４は、生成された各仮説文を用いた評価を行うと共に、それらの評価結果を総合した評価結果を算出してもよい。

　例えば、文書ｘを分類先候補ｌに分類することの妥当性を評価する場合に、戦略選択部２０２が１００個の生成戦略を選択し、仮説文生成部２０３はそれらを用いて１００個の仮説文を生成したとする。この場合、分類部２０４は、文書ｘと仮説文との組を言語理解モデル２１２に入力し、各仮説文の含意スコア（計１００個）を算出する。そして、分類部２０４は、それらの含意スコアを総合して文書ｘを分類先候補ｌに分類することの妥当性を示す指標値（以下、総合スコアと呼ぶ）を算出する。

　総合スコアの算出方法は、算出された含意スコアの少なくとも一部が反映された総合スコアが算出されるような方法であればよく、特に限定されない。例えば、分類部２０４は、複数の仮説文のそれぞれについて算出された含意スコアから算出した統計量を総合スコアとして算出してもよい。なお、統計量とは、統計学的なアルゴリズムを適用することにより得た、データの特徴量を要約した数値である。統計量の例としては、例えば、算術平均値、最頻値、中央値、最大値、および最小値等が挙げられる。

　また、分類部２０４は、上述のような総合スコアを算出することなく、算出した複数の含意スコアを分類結果として出力してもよい。この場合、それらの含意スコアにより、文書分類装置２のユーザに、分類対象の文書の妥当な分類先を認識させることができる。

　（履歴情報に基づく生成戦略の選択方法）
　戦略選択部２０２は、履歴情報２１３に基づいて生成戦略を選択してもよい。以下では、履歴情報２１３に基づく生成戦略の選択について、図７に基づいて説明する。図７は、履歴情報２１３の例を示す図である。

　履歴情報２１３は、過去に行われた文書の分類について、当該分類の結果が正しかったか否かを示す情報であり、履歴記録部２０５によって記録される。従って、履歴情報２１３に基づく生成戦略の選択方法は、過去に行われた文書の分類の結果に基づくものであり、学習ベースを用いた選択方法であるといえる。

　図７に示す履歴情報２１３は、生成戦略１～３をそれぞれ適用して行われた文書の分類について、分類された文書とその分類先、およびその分類の正誤を示している。具体的には、図７の履歴情報２１３には、入力文ｘ_１と分類先ｌ_１～ｌ_３の各組み合わせについて、使用した生成戦略毎の妥当性の評価に対する正誤判定の結果が示されている。

　例えば、入力文ｘ_１と分類先ｌ_１の組み合わせについて、生成戦略１に従って仮説文を生成した場合の正誤判定の結果は「正」となっている。このことは、生成戦略１に従って分類先ｌ_１に関する仮説文を生成することにより、入力文ｘ_１を分類先ｌ_１に分類することの妥当性を正しく評価できたこと、つまり妥当な含意スコアが算出されたことを示している。

　一方、入力文ｘ_１と分類先ｌ_２の組み合わせについて、生成戦略１に従って仮説文を生成した場合の正誤判定の結果は「誤」となっている。このことは、生成戦略１に従って分類先ｌ_２に関する仮説文を生成した場合には、入力文ｘ_１を分類先ｌ_２に分類することの妥当性を正しく評価できなかったこと、つまり妥当な含意スコアが算出されなかったことを示している。

　履歴記録部２０５は、分類部２０４による評価が行われた文書と分類先の組み合わせのそれぞれについて、その評価結果あるいは分類結果の正誤を例えばユーザに入力させることにより、このような履歴情報２１３を生成することができる。

　このような履歴情報２１３は、どのような入力文およびどのような分類先のときにどのような生成戦略を選べばよいかを示す指針となるものである。よって、戦略選択部２０２は、履歴情報２１３に基づいて、分類対象の文書とその分類先候補の組み合わせについて、その分類の妥当性を正しく評価できると考えられる生成戦略を選択することができる。

　例えば、戦略選択部２０２は、生成戦略を適用したときに妥当な含意スコアが算出された率（以下、正答率と呼ぶ）に基づいて生成戦略を選択してもよい。例えば、戦略選択部２０２は、正答率が上位の所定数の生成戦略を選択してもよい。

　また、図７の履歴情報２１３では、入力文ｘ_１が議事録文書であることが示されている。このように、履歴記録部２０５は、入力文ｘ_１がどのような文書であるかを示す属性情報を履歴情報２１３に含めてもよい。この場合、戦略選択部２０２は、分類対象の文書の属性情報と同じ属性情報が対応付けられている入力文の正答率に基づいて生成戦略を選択してもよい。例えば、戦略選択部２０２は、分類対象の文書が医療関連の文書である場合に、医療関連の入力文の正答率が高い生成戦略を選択してもよい。

　同様に、履歴記録部２０５は、分類先の属性情報を履歴情報２１３に含めてもよい。この場合、戦略選択部２０２は、分類対象の文書の分類先候補と同じ属性情報の分類先についての正答率に基づいて生成戦略を選択することができる。例えば、戦略選択部２０２は、分類先候補が趣味である場合に、分類先が趣味であるときに正答率が高い生成戦略を選択することができる。

　以上のように、戦略選択部２０２は、過去に行われた文書の分類について、当該分類の結果が正しかったか否かを示す履歴情報２１３に基づいて生成戦略を選択してもよい。この構成によれば、例示的実施形態１に係る文書分類装置１の奏する効果に加えて、履歴情報からみて妥当と考えられる生成戦略を選択することができるという効果が得られる。

　（処理の流れ）
　文書分類装置２が実行する処理（文書分類方法）の流れを図８に基づいて説明する。図８は、文書分類装置２が実行する処理の流れを示すフロー図である。

　Ｓ２１では、データ取得部２０１が、分類対象の文書と分類先候補の入力を受け付ける。分類対象の文書としては、任意のテキストデータを適用できる。入力される分類先候補は１つであっても複数であってもよく、例えば、データ取得部２０１は、分類先候補として、複数の分類先ラベルｌを含むラベル集合Ｌの入力を受け付けてもよい。

　Ｓ２２では、戦略選択部２０２が、文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、１または複数の生成戦略を選択する。例えば、戦略選択部２０２は、生成戦略保持部２１１に記録されている生成戦略の中から１または複数の生成戦略を選択する。

　なお、Ｓ２１で複数の分類先ラベルｌを含むラベル集合Ｌが入力された場合、戦略選択部２０２は、分類先ラベルごとにその分類先ラベルに応じた生成戦略を選択してもよい。生成戦略の選択方法は、「生成戦略とその選択法」で説明したようなルールベースを用いた選択方法であってもよいし、「履歴情報に基づく生成戦略の選択方法」で説明したような学習ベースを用いた選択方法であってもよい。

　Ｓ２３では、仮説文生成部２０３が、Ｓ２２で選択された生成戦略に従って、Ｓ２１で入力を受け付けた分類先候補に関する仮説文を生成する。Ｓ２２で選択された生成戦略が複数であれば、仮説文生成部２０３は、各生成戦略に従って複数の仮説文を生成する。例えば、Ｓ２２において、分類先ラベルｌ_１に対応する生成戦略として生成戦略１および３が選択され、分類先ラベルｌ_２に対応する生成戦略として生成戦略２および３が選択されたとする。この場合、仮説文生成部２０３は、１つの分類先ラベルｌ_１について、生成戦略１に従って仮説文を生成すると共に、生成戦略３に従って仮説文を生成する。同様に、仮説文生成部２０３は、１つの分類先ラベルｌ_２について、生成戦略２に従って仮説文を生成すると共に、生成戦略３に従って仮説文を生成する。

　Ｓ２４では、分類部２０４が、Ｓ２１で入力を受け付けた分類対象の文書の分類先を決定する。例えば、分類部２０４は、言語理解モデル２１２に仮説文と分類対象の文書の組を入力することにより含意スコアを算出してもよい。この含意スコアは、分類対象の文書をＳ２１で入力を受け付けた分類先候補に分類することの妥当性を示すものであるから、分類対象の文書の分類先を示しているともいえる。Ｓ２３で複数の仮説文が生成された場合、Ｓ２４の処理は生成された複数の仮説文のそれぞれについて行われる。なお、１つの分類先候補について複数の仮説文が生成され、各仮説文について含意スコアが算出された場合、上述の「複数の仮説文が生成された場合の評価」で説明したように、分類部２０４はそれらの含意スコアから総合スコアを算出してもよい。

　Ｓ２５では、分類部２０４は、Ｓ２４の処理により決定された分類先を出力部２３に出力させる。例えば、分類部２０４は、含意スコアまたは総合スコアが閾値を超える分類先候補を、決定された分類先として出力部２３に出力させてもよい。これにより、図８の処理は終了する。

　なお、Ｓ２５では、分類部２０４は、分類先候補の含意スコアまたは総合スコアを出力してもよい。この場合、文書分類装置２のユーザは、出力された総合スコアから、分類対象の文章を何れの分類先候補に分類するか、あるいは何れの分類先候補にも分類しないか等を判断することができる。無論、評価結果や分類先は必ずしも出力する必要はなく、分類部２０４は、算出した評価結果や決定した分類先を例えば記憶部２１に記憶して処理を終了してもよい。

　〔変形例〕
　上述の実施形態で説明した各処理の実行主体は任意であり、上述の例に限られない。つまり、相互に通信可能な複数の装置により、文書分類装置２と同様の機能を有する文書分類システムを構築することができる。例えば、図４に示す各ブロックを複数の装置に分散して設けることにより、文書分類装置２と同様の機能を有する文書分類システムを構築することができる。

　〔ソフトウェアによる実現例〕
　文書分類装置２の一部又は全部の機能は、集積回路（ＩＣチップ）等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。後者の場合、文書分類装置２は、例えば、各機能を実現するソフトウェアであるプログラム（文書分類プログラム）の命令を実行するコンピュータによって実現される。このようなコンピュータの一例（以下、コンピュータＣと記載する）を図９に示す。コンピュータＣは、少なくとも１つのプロセッサＣ１と、少なくとも１つのメモリＣ２と、を備えている。メモリＣ２には、コンピュータＣを文書分類装置２として動作させるためのプログラムＰが記録されている。コンピュータＣにおいて、プロセッサＣ１は、プログラムＰをメモリＣ２から読み取って実行することにより、文書分類装置２の各機能が実現される。

　プロセッサＣ１としては、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphic Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＰＵ（Micro Processing Unit）、ＦＰＵ（Floating point number Processing Unit）、ＰＰＵ（Physics Processing Unit）、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリＣ２としては、例えば、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、又は、これらの組み合わせなどを用いることができる。

　なお、コンピュータＣは、プログラムＰを実行時に展開したり、各種データを一時的に記憶したりするためのＲＡＭ（Random Access Memory）を更に備えていてもよい。また、コンピュータＣは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータＣは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。

　また、プログラムＰは、コンピュータＣが読み取り可能な、一時的でない有形の記録媒体Ｍに記録することができる。このような記録媒体Ｍとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータＣは、このような記録媒体Ｍを介してプログラムＰを取得することができる。また、プログラムＰは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータＣは、このような伝送媒体を介してプログラムＰを取得することもできる。

　〔付記事項１〕
　本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。

　〔付記事項２〕
　上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。

　（付記１）
　文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、１または複数の生成戦略を選択する戦略選択手段と、前記戦略選択手段が選択する前記生成戦略に従って、前記分類先候補に関連する文である仮説文を生成する仮説文生成手段と、前記文書と前記仮説文の含意関係に基づき、前記文書の分類先を決定する分類手段と、を備える文書分類装置。

　（付記２）
　前記戦略選択手段は、前記文書が所定の条件を満たす場合に、当該条件に対応する前記生成戦略を選択する、付記１に記載の文書分類装置。

　（付記３）
　前記戦略選択手段は、前記分類先候補が所定の条件を満たす場合に、当該条件に対応する前記生成戦略を選択する、付記１または２に記載の文書分類装置。

　（付記４）
　前記戦略選択手段は、前記文書と前記分類先候補の少なくとも何れかが所定の条件を満たす場合に、当該条件に対応する前記生成戦略を選択する、付記１に記載の文書分類装置。

　（付記５）
　前記戦略選択手段は、過去に行われた文書の分類について、当該分類の結果が正しかったか否かを示す履歴情報に基づいて前記生成戦略を選択する、付記１に記載の文書分類装置。

　（付記６）
　少なくとも１つのプロセッサが、文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、１または複数の生成戦略を選択することと、前記選択した生成戦略に従って、前記分類先候補に関連する文である仮説文を生成することと、前記文書と前記仮説文の含意関係に基づき、前記文書の分類先を決定することと、を含む文書分類方法。

　（付記７）
　コンピュータを、文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、１または複数の生成戦略を選択する戦略選択手段、前記戦略選択手段が選択する前記生成戦略に従って、前記分類先候補に関連する文である仮説文を生成する仮説文生成手段、および、前記文書と前記仮説文の含意関係に基づき、前記文書の分類先を決定する分類手段、として機能させる文書分類プログラム。

　〔付記事項３〕
　上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。少なくとも１つのプロセッサを備え、前記プロセッサは、文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、１または複数の生成戦略を選択する戦略選択処理と、前記戦略選択処理において選択する前記生成戦略に従って、前記分類先候補に関連する文である仮説文を生成する仮説文生成処理と、前記文書と前記仮説文の含意関係に基づき、前記文書の分類先を決定する分類処理と、を実行する文書分類装置。

　なお、この文書分類装置は、更にメモリを備えていてもよく、このメモリには、前記戦略選択処理と、前記仮説文生成処理と、前記分類処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。

１、２　文書分類装置
１１、２０２　戦略選択部
１２、２０３　仮説文生成部
１３、２０４　分類部

Claims

　文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、１または複数の生成戦略を選択する戦略選択手段と、
　前記戦略選択手段が選択する前記生成戦略に従って、前記分類先候補に関連する文である仮説文を生成する仮説文生成手段と、
　前記文書と前記仮説文の含意関係に基づき、前記文書の分類先を決定する分類手段と、を備える文書分類装置。
　前記戦略選択手段は、前記文書が所定の条件を満たす場合に、当該条件に対応する前記生成戦略を選択する、請求項１に記載の文書分類装置。
　前記戦略選択手段は、前記分類先候補が所定の条件を満たす場合に、当該条件に対応する前記生成戦略を選択する、請求項１または２に記載の文書分類装置。
　前記戦略選択手段は、前記文書と前記分類先候補の少なくとも何れかが所定の条件を満たす場合に、当該条件に対応する前記生成戦略を選択する、請求項１に記載の文書分類装置。
　前記戦略選択手段は、過去に行われた文書の分類について、当該分類の結果が正しかったか否かを示す履歴情報に基づいて前記生成戦略を選択する、請求項１に記載の文書分類装置。
　少なくとも１つのプロセッサが、
　文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、１または複数の生成戦略を選択することと、
　前記選択した生成戦略に従って、前記分類先候補に関連する文である仮説文を生成することと、
　前記文書と前記仮説文の含意関係に基づき、前記文書の分類先を決定することと、を含む文書分類方法。
　コンピュータを、
　文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、１または複数の生成戦略を選択する戦略選択手段、
　前記戦略選択手段が選択する前記生成戦略に従って、前記分類先候補に関連する文である仮説文を生成する仮説文生成手段、および
　前記文書と前記仮説文の含意関係に基づき、前記文書の分類先を決定する分類手段、として機能させる文書分類プログラム。