JPWO2017138549A1 - 情報処理装置、情報処理方法、及び、プログラム - Google Patents

情報処理装置、情報処理方法、及び、プログラム Download PDF

Info

Publication number
JPWO2017138549A1
JPWO2017138549A1 JP2017566969A JP2017566969A JPWO2017138549A1 JP WO2017138549 A1 JPWO2017138549 A1 JP WO2017138549A1 JP 2017566969 A JP2017566969 A JP 2017566969A JP 2017566969 A JP2017566969 A JP 2017566969A JP WO2017138549 A1 JPWO2017138549 A1 JP WO2017138549A1
Authority
JP
Japan
Prior art keywords
instance
pattern
candidate
score
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017566969A
Other languages
English (en)
Other versions
JP6881322B2 (ja
Inventor
阿部 憲幸
憲幸 阿部
貴士 大西
貴士 大西
翔平 東山
翔平 東山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2017138549A1 publication Critical patent/JPWO2017138549A1/ja
Application granted granted Critical
Publication of JP6881322B2 publication Critical patent/JP6881322B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

インスタンスを適切に選定するため、本発明の情報処理装置は、所定のデータの集合であるカテゴリに含まれるデータであるインスタンスの候補であるインスタンス候補と所定のデータにおける特徴的な表現であるパターンとの関連する程度を表す数値である第1の信頼度スコアを基に、インスタンス候補の少なくとも一部に、第1のラベルを付与するインスタンスラベル付与手段と、第1のラベルが付与されたインスタンス候補の第1の信頼度スコアを更新するインスタンススコア再計算手段とを含む。

Description

本発明は、情報(データ)の処理に関し、特に、情報(データ)を選択する情報処理装置、情報処理方法、及び記録媒体に関する。
近年、大規模なデータ(例えば、文書データ)の中から知識を獲得(選択又は抽出)する技術が研究されている。ここで、「知識」とは、所定の動作又は判断(タスク)を実行するために必要となるデータである。
さらに、知識(選択されたデータ)の中で、事前に定められた知識(データ)の集合の要素となっている知識(データ)を獲得(選択又は抽出)する技術が研究されている。
事前に定められた知識(データ)の集合は、「カテゴリ(category)」と呼ばれている。また、カテゴリに含まれる要素(知識、つまりデータ)は、「インスタンス(instance)」と呼ばれている。データの集合からカテゴリに含まれるインスタンスを獲得(抽出)する装置は、カテゴリ知識獲得装置と呼ばれている(例えば、非特許文献1を参照)。
以下、図面を参照して、非特許文献1などに記載されている一般的なカテゴリ知識獲得装置の構成及び動作を説明する。
図18は、一般的なカテゴリ知識獲得装置900の構成の一例を示すブロック図である。図18に示されているように、カテゴリ知識獲得装置900は、パターン抽出部920と、インスタンス抽出部930とを含む。
カテゴリ知識獲得装置900は、例えば、次に説明するように動作する。なお、以下の説明において、カテゴリ知識獲得装置900は、カテゴリ知識の獲得方法として、ブートストラッピング手法を用いている。また、カテゴリ知識獲得装置900は、予め処理の対象となる文書データを保持する。さらに、カテゴリ知識獲得装置900は、予め、対象となるカテゴリを保持している。
カテゴリ知識獲得装置900は、まず、カテゴリに含まれる所定数のインスタンスを取得する。この最初に取得(選択又は受信)するインスタンスを、以下、「シードインスタンス(seed instance)」と呼ぶ。例えば、カテゴリ知識獲得装置900は、図示しない装置からシードインスタンスを受信してよい。あるいは、カテゴリ知識獲得装置900は、シードインスタンスとして、カテゴリから所定の規則に沿ってインスタンスを抽出してもよい。
そして、カテゴリ知識獲得装置900は、以下で説明するパターン抽出部920とインスタンス抽出部930とにおける動作を繰り返して、インスタンスの集合を抽出する。
そのため、図18に示されているように、パターン抽出部920は、パターン候補抽出部922と、パターンスコア計算部923と、パターン選定部926とを含む。また、インスタンス抽出部930は、インスタンス候補抽出部932と、インスタンススコア計算部933と、インスタンス選定部936とを含む。
パターン候補抽出部922は、文書データから、受信したインスタンス(今の場合、シードインスタンス)に関連(共起)する「パターン(pattern)」の候補を抽出する。ここで、「パターン」とは、インスタンスが含まれる文脈である。また、「文脈」とは、文書データにおける特徴的な表現(文書データにおいて、多く出現する構文構造に対応する表現)となっているデータ部分である。ここで抽出されたパターンを、以下、「パターン候補」とも呼ぶ。
パターンスコア計算部923は、抽出されたパターン候補に信頼度スコアを付与する。ここで、「信頼度スコア」とは、各パターン候補が、インスタンスに関連(共起)する程度(信頼の程度)を表す数値である。信頼の程度が高いパターン候補は、高い信頼度スコアが付与される。反対に、信頼の程度が低いパターン候補は、低い信頼度スコアが付与される。
つまり信頼度スコアの値が大きいパターン候補は、信頼度スコアの値が低いパターン候補より信頼できる(つまり、インスタンスに関連(共起)する可能性が高い)パターン候補である。
なお、信頼度スコアは、特に制限はない。信頼度スコアの一例は、インスタンスとパターン候補との自己相互情報量(PMI:Pointwise Mutual Information)である。
パターン選定部926は、パターンとして、信頼度スコアの上位の方から所定の数のパターン候補を選定する。
インスタンス候補抽出部932は、文書データを基に、選定されたパターンに関連(共起)するインスタンスの候補を抽出する。
インスタンススコア計算部933は、インスタンス候補抽出部932において抽出されたインスタンス候補に、信頼度スコアを付与する。この信頼度スコアは、上記のパターンスコア計算部923における信頼度スコアと同様の信頼度スコアでよい。
インスタンス選定部936は、インスタンスとして、信頼度スコアの上位の方から所定数のインスタンス候補を選定する。
インスタンス抽出部930は、抽出されたインスタンスを、パターン抽出部920に送信する。
パターン抽出部920は、シードインスタンスに換えて、インスタンス抽出部930から受信したインスタンスを用いて、同様の動作を実行する。そして、パターン抽出部920は、選定したパターンをインスタンス抽出部930に送信する。
インスタンス抽出部930は、上記と同様の動作を実行する。
カテゴリ知識獲得装置900は、所定の数のインスタンスを抽出するまで、パターン抽出部920及びインスタンス抽出部930の動作を繰り返す。つまり、カテゴリ知識獲得装置900は、上記の動作を繰り返して、文書データからカテゴリに含まれるインスタンスを獲得(抽出)する。
しかし、ブートストラッピング手法を用いたカテゴリ知識獲得装置900は、上記のパターン抽出部920及びインスタンス抽出部930の動作を繰り返すうちに、インスタンスとして、カテゴリに含まれないデータを抽出する場合がある。このように、非特許文献1に記載の技術は、インスタンスとして適切でないデータを抽出(取得)する問題点があった。この問題点は、「意味ドリフト(semantic drift)」と呼ばれている。
そこで、非特許文献1における問題点である意味ドリフトを低減するための技術が提案されている(例えば、非特許文献2を参照)。
図19は、一般的な意味ドリフトに対応したカテゴリ知識獲得装置901の構成の一例を示すブロック図である。図19に示されているとおり、カテゴリ知識獲得装置901は、パターン抽出部920とインスタンス抽出部931とを含む。パターン抽出部920は、上記の図18と同じため、詳細な説明を省略する。
インスタンス抽出部931は、インスタンス抽出部930に含まれる構成に加え、チェック対象インスタンス選定部934と、負例チェック部935と、インスタンス削除部937と、インスタンススコア再計算部938とを含む。インスタンス候補抽出部932とインスタンススコア計算部933とインスタンス選定部936とは、上記の図18と同じため、詳細な説明を省略する。
チェック対象インスタンス選定部934は、以下で説明する動作の対象となるインスタンス候補を選定する。より詳細には、チェック対象インスタンス選定部934は、カテゴリに含まれるか否かを判定するインスタンス候補を選定する。例えば、チェック対象インスタンス選定部934は、信頼度スコアが上位の方から所定の順番の範囲となっているインスタンス候補を選定する。
負例チェック部935は、選定されたインスタンス候補に、カテゴリに含まれるか(属するか)否かを示すラベル(正ラベル又は負ラベル)を付与する。「正ラベル」は、インスタンス候補がカテゴリに含まれる(属する)ことを示すラベルである。また、「負ラベル」は、インスタンス候補がカテゴリに含まれない(属さない)ことを示すラベルである。つまり、負例チェック部935は、インスタンス候補がカテゴリに含まれる場合、インスタンス候補に正ラベルを付与し、インスタンス候補がカテゴリに含まれない場合、インスタンス候補に負ラベルを付与する。
次に、インスタンス削除部937は、負ラベルが付与されたインスタンス候補と、そのインスタンス候補に関連(共起)するパターンとを削除する。
そして、インスタンススコア再計算部938は、残ったインスタンス候補の信頼度スコアを再計算する。
インスタンス選定部936は、インスタンスとして、再計算後の信頼度スコアを基にインスタンス候補を選定する。
このように、意味ドリフトに対応したカテゴリ知識獲得装置901は、非特許文献2に記載された技術などを用いて、インスタンス候補がカテゴリに属さない場合(適切なインスタンスではない場合)に、インスタンス候補に負ラベルを付与する。そして、カテゴリ知識獲得装置901は、負ラベルが付与されたインスタンス候補と、そのインスタンス候補に関連(共起)するパターンとを削除する。つまり、カテゴリ知識獲得装置901は、ラベルを用いて、カテゴリに含まれないインスタンス候補を削除している。
カテゴリ知識獲得装置901は、上記の動作を基に、意味ドリフトに対応している。つまり、カテゴリ知識獲得装置901は、上記の動作を基に、より適切なインスタンスを抽出(獲得)している。その結果、カテゴリ知識獲得装置901は、カテゴリに含まれるインスタンスが選定される比率(適合率)を向上している。
Patric Pantel, Marco Pannacchiotti, "Espresso: Leveraging Generic Patterns for Automatically Harvesting Semantic Relations", Proceedings of 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics, pp 113-120, July 17-18, 2006 Vishnu Vyas and Patrick Pantel, "Semi-Automatic Entity Set Refinement", '09 Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pp. 290-298, May 31 - June 05, 2009
しかし、カテゴリ知識獲得装置901は、インスタンス候補がカテゴリに含まれるか否かに関する情報であるラベル(正ラベル及び負ラベル)を、インスタンス候補の信頼度スコアに反映することができない。
インスタンス候補の信頼度スコアは、インスタンス抽出部931が、インスタンスとして、インスタンス候補を選定するときに用いる値である。そのため、信頼度スコアは、カテゴリに含まれるか否かに関する情報であるラベル(正ラベル及び負ラベル)を考慮した値であることが望ましい。
しかし、カテゴリ知識獲得装置901は、ラベル(正ラベル及び負ラベル)の関する情報を、インスタンス候補の信頼度スコアの値に関連付けることができない。
つまり、非特許文献2には、インスタンス候補に対する信頼度スコアを適切に設定できないという問題点があった。その結果、非特許文献2には、インスタンスを、適切に抽出(選定)できないという問題点があった。
本発明の目的は、上記問題点を解決し、インスタンスを適切に選定(抽出)する情報処理装置、情報処理方法、及び、記録媒体を提供することにある。
本発明の一形態における情報処理装置は、所定のデータの集合であるカテゴリに含まれるデータであるインスタンスの候補であるインスタンス候補と所定のデータにおける特徴的な表現であるパターンとの関連する程度を表す数値である第1の信頼度スコアを基に、インスタンス候補の少なくとも一部に、第1のラベルを付与するインスタンスラベル付与手段と、第1のラベルが付与されたインスタンス候補の第1の信頼度スコアを更新するインスタンススコア再計算手段とを含む。
本発明の一形態における情報処理方法は、所定のデータの集合であるカテゴリに含まれるデータであるインスタンスの候補であるインスタンス候補と所定のデータにおける特徴的な表現であるパターンとの関連する程度を表す数値である第1の信頼度スコアを基に、インスタンス候補の少なくとも一部に、第1のラベルを付与し、第1のラベルが付与されたインスタンス候補の第1の信頼度スコアを更新する。
本発明の一形態における記録媒体は、所定のデータの集合であるカテゴリに含まれるデータであるインスタンスの候補であるインスタンス候補と所定のデータにおける特徴的な表現であるパターンとの関連する程度を表す数値である第1の信頼度スコアを基に、インスタンス候補の少なくとも一部に、第1のラベルを付与する処理と、第1のラベルが付与されたインスタンス候補の第1の信頼度スコアを更新する処理とをコンピュータに実行させるプログラムを記録する。
本発明に基づけば、インスタンスを適切に選定するとの効果を奏することができる。
図1は、本発明における第1の実施形態に係る情報処理装置の構成の一例を示すブロック図である。 図2は、第1の実施形態に係るインスタンススコア再計算部の構成の一例を示すブロック図である。 図3は、第1の実施形態に係る情報処理装置の動作の一例を示すフローチャートである。 図4は、第1に実施形態に係るCPUを用いた構成の一例を示すブロック図である。 図5は、第2の実施形態に係る情報処理装置の構成の一例を示すブロック図である。 図6は、第2の実施形態に係るパターンスコア再計算部の構成の一例を示すブロック図である。 図7は、第2の実施形態に係るパターンラベル付与部及びパターンスコア再計算部の動作の一部の一例を示すフローチャートである。 図8は、第3の実施形態に係るインスタンススコア再計算部の構成の一例を示すブロック図である。 図9は、第4の実施形態に係るパターンスコア再計算部の構成の一例を示すブロック図である。 図10は、第1の詳細例におけるシードインスタンスとパターンとの関係を示す図である。 図11は、第1の詳細例におけるパターンとインスタンス候補との関係を示す図である。 図12は、第1の詳細例における信頼度スコアが更新されたインスタンス候補を示す図である。 図13は、第1の詳細例における信頼度スコアが更新されたパターンを示す図である。 図14は、第1の詳細例における更新されたパターンの信頼度スコアを基に再計算されたインスタンス候補の信頼度スコアを示す図である。 図15は、第2の詳細例における信頼度スコアを更新されたパターン候補を示す図である。 図16は、第2の詳細例における更新されたインスタンスの信頼度スコアを示す図である。 図17は、第2の詳細例における再計算後のパターン候補の信頼度スコアを示す図である。 図18は、一般的なカテゴリ知識獲得装置の構成の一例を示すブロック図である。 図19は、別の一般的なカテゴリ知識獲得装置の構成の一例を示すブロック図である。 図20は、第1の実施形態に係る情報処理装置の第1の変形例の構成の一例を示すブロック図である。
次に、本発明の実施形態について図面を参照して説明する。
なお、各図面は、本発明の実施形態を説明するものである。ただし、本発明は、各図面の記載に限られるわけではない。また、各図面の同様の構成には、同じ番号を付し、その繰り返しの説明を、省略する場合がある。また、以下の説明に用いる図面において、本発明の説明に関係しない部分の構成については、記載を省略し、図示しない場合もある。また、図面中の矢印の方向は、一例を示すものであり、ブロック間の信号の向きを限定するものではない。
[用語の整理]
既に説明した記載と重複する内容を含め、以下の本発明における実施形態の説明で用いる用語について、整理する。
「文書データ」とは、本発明における実施形態の処理対象となるデータである。文書データは、特に、制限されない。例えば、文書データは、プレーンなテキストデータ、又は、HTML(Hyper Text Markup language)のような構造を含むデータでもよい。文書データは、上記に限らず、以下で説明するカテゴリ、インスタンス、及びパターンを設定できるデータであれば、どのようなデータでもよい。なお、以下の説明において、文書データは、予め保持されているとする。
「カテゴリ」とは、予め定められたデータ(知識)の集合である。なお、以下の説明において、カテゴリに関する情報は、予め、保持されているとする。
「インスタンス」とは、カテゴリに含まれるデータ(知識)である。「インスタンス候補」は、インスタンスの候補としての抽出されたデータである。
「シードインスタンス」とは、処理の最初に用いられるインスタンスである。例えば、シードインスタンスは、カテゴリから所定の規則に沿って抽出される。
「パターン」とは、インスタンスが含まれる文書データにおける文脈である。ここで、「文脈」とは、文書データにおける特徴的な表現(例えば、文書データにおいて、多く出現する構文構造に対応する表現)となっているデータの部分である。「パターン候補」は、パターンの候補としての抽出されたデータである。
「信頼度スコア」とは、パターンとインスタンスとにおける関連する程度(信頼の程度)を表す数値である。例えば、信頼度スコアが高いパターンは、信頼度スコアが低いパターンに比べ、インスタンスに関連する可能性が高い。関連は、特に制限されない。関連の一例は、「共起」である。この場合、信頼度スコアは、インスタンスとパターンとが共起する程度を示す値となる。この場合の信頼度スコアの一例は、インスタンスとパターンとの自己相互情報量(PMI)である。ただし、信頼度スコアの値は、PMIに限定されない。なお、各実施形態の説明は、一例として、共起を用いて説明する。
「ラベル」とは、カテゴリに関連するか否かを示す情報である。
インスタンスの場合、ラベルは、インスタンスがカテゴリに含まれるか否かを示す情報である。正ラベルは、インスタンスがカテゴリに含まれることを示す情報である。負ラベルは、インスタンスがカテゴリに含まれないことを示す情報である。
パターンの場合、ラベルは、パターンに関連するインスタンスがカテゴリに含まれるか否かを示す情報である。正ラベルは、パターンに関連するインスタンスがカテゴリに含まれることを示す情報である。負ラベルは、パターンに関連するインスタンスがカテゴリに含まれないことを示す情報である。
ただし、ラベルは、正ラベル及び負ラベルの二値に限られる必要はない。例えば、インスタンスのラベルは、インスタンスがカテゴリに含まれる程度を基に、二値を超える値を含んでもよい。
<第1の実施形態>
図面を参照して、本発明における第1の実施形態について説明する。
[構成の説明]
まず、本発明における第1の実施形態に係る情報処理装置100の構成について、図面を参照して説明する。
図1は、第1の実施形態に係る情報処理装置100の構成の一例を示すブロック図である。
図1に示されているように、情報処理装置100は、パターン抽出部200と、インスタンス抽出部300とを含む。
パターン抽出部200は、シードインスタンス又はインスタンス抽出部300が抽出したインスタンスを受信する。そして、パターン抽出部200は、後ほど説明する動作を基に、受信したインスタンスを用いてパターンを抽出する。そして、パターン抽出部200は、抽出したパターンを、インスタンス抽出部300に送信する。
インスタンス抽出部300は、パターン抽出部200からパターンを受信する。そして、インスタンス抽出部300は、後ほど説明する動作を基に、受信したパターンを用いて、インスタンスを抽出する。そして、インスタンス抽出部300は、抽出したインスタンスを、パターン抽出部200に送信する。
パターン抽出部200とインスタンス抽出部300とは、所定の条件を満足するまで、上記の動作を繰り返す。ここで、所定の条件とは、例えば、情報処理装置100が抽出(獲得)したインスタンスの数が、所定の値を超えることである。
次に、情報処理装置100の詳細な構成について説明する。
図1に示されているとおり、パターン抽出部200は、パターン候補抽出部202と、パターンスコア計算部203と、パターン選定部206とを含む。
パターン候補抽出部202は、インスタンスを受信する。上記のとおり、このインスタンスは、シードインスタンス、又は、インスタンス抽出部300が抽出したインスタンスである。なお、パターン候補抽出部202は、インスタンスに合わせて、インスタンスの信頼度スコアを受信する。
そして、パターン候補抽出部202は、文書データを基に、インスタンスに関連(共起)するパターン候補を抽出する。ただし、パターン候補抽出部202は、パターン候補を抽出するデータを文書データに限る必要はない。例えば、パターン候補抽出部202は、インスタンス及びそのインスタンスに関連するパターンの組合せのデータ、又は、パターン及びそのパターンに関連するインスタンスとの組合せのデータから、パターン候補を抽出してもよい。なお、この場合、情報処理装置100は、予め、図示しない記憶部(例えば、データベース)に上記のデータを保持すればよい。
パターンスコア計算部203は、抽出されたパターン候補の信頼度スコアを算出する。つまり、パターンスコア計算部203は、パターン候補に信頼度スコアを付与する。パターンスコア計算部203は、インスタンスの信頼度スコアを用いて、パターン候補の信頼度スコアを算出する。ただし、パターンスコア計算部203は、他の情報を用いて、パターン候補の信頼度スコアを算出してもよい。
パターン選定部206は、パターンに付与された信頼度スコアを基に、パターン候補からパターンを選定(抽出)する。例えば、パターン選定部206は、パターンとして、信頼度スコアの最上位から所定の範囲に含まれる信頼度スコアに対応するパターン候補を選定する。そして、パターン選定部206は、選定したパターンをインスタンス抽出部300に送信する。ただし、パターン選定部206は、選定したパターンに対応する信頼度スコアをインスタンス抽出部300に送信する。
図1に示されているとおり、インスタンス抽出部300は、インスタンス候補抽出部302と、インスタンススコア計算部303と、インスタンスラベル付与部304と、インスタンススコア再計算部310と、インスタンス選定部306とを含む。
インスタンス候補抽出部302は、パターン抽出部200からパターンを受信する。ただし、インスタンス候補抽出部302は、パターンに合わせて、パターンの信頼度スコアを受信する。
そして、インスタンス候補抽出部302は、文書データを基に、受信したパターンに関連(共起)するインスタンス候補を抽出する。
インスタンススコア計算部303は、抽出されたインスタンス候補の信頼度スコアを算出する。つまり、インスタンススコア計算部303は、抽出されたインスタンス候補に信頼度スコアを付与する。インスタンススコア計算部303は、パターンの信頼度スコアを用いて、インスタンス候補の信頼度スコアを算出する。ただし、インスタンススコア計算部303は、他の情報を用いて、インスタンス候補の信頼度スコアを算出してもよい。
インスタンスラベル付与部304は、信頼度スコアが付与されたインスタンス候補から、ラベルを付与するインスタンス候補を選定する。なお、インスタンスラベル付与部304は、ラベルを付与するインスタンス候補を選定する方法を、特に、制限されない。
例えば、インスタンスラベル付与部304は、信頼度スコアの最上位から所定の範囲となっている信頼度スコアに対応するインスタンス候補を選定してもよい。
あるいは、インスタンスラベル付与部304は、信頼度スコアの所定の順位の範囲となっているインスタンス候補を選定してもよい。ここで、所定の範囲とは、例えば、信頼度スコアの上位から所定の順番であるインスタンス候補と、そのインスタンス候補の近傍のインスタンス候補を含む範囲である。具体的には、所定の順番が、10番であり、近傍が前後2番の場合、所定の範囲のインスタンス候補は、信頼度スコアの順番が、8番から12番となっているインスタンス候補である。
あるいは、インスタンスラベル付与部304は、インスタンス選定部306が選定するインスタンスの数に沿って、ラベルを付与するインスタンス候補を選定してもよい。例えば、インスタンス選定部306が、4つのインスタンスを選定する場合、インスタンスラベル付与部304は、選定の境界となる、信頼度スコアが4番目のインスタンス候補と5番目のインスタンス候補とにラベルを付与してもよい。あるいは、インスタンスラベル付与部304は、範囲を広げて、信頼度スコアが3番目のインスタンス候補から6番目のインスタンス候補にラベルを付与してもよい。
そして、インスタンスラベル付与部304は、選定されたインスタンス候補にラベルを付与する。
より具体的には、インスタンスラベル付与部304は、インスタンス候補がカテゴリに含まれるか否かを判定する。そして、インスタンスラベル付与部304は、カテゴリに含まれるインスタンス候補に正ラベルを付与し、カテゴリに含まれないインスタンス候補に負ラベルを付与する。
このように、インスタンスラベル付与部304は、少なくとも一部のインスタンス候補にラベルを付与する。
なお、インスタンスラベル付与部304は、全てのインスタンス候補にラベルを付与してもよい。
インスタンススコア再計算部310は、ラベルを基に、ラベルが付与されたインスタンス候補の信頼度スコアを更新(再計算)する。
インスタンススコア再計算部310について、図面を参照して、詳細に説明する。
図2は、第1の実施形態に係るインスタンススコア再計算部310の構成の一例を示すブロック図である。
図2に示されているように、インスタンススコア再計算部310は、インスタンススコア更新部311と、インスタンススコア逆伝播部312と、パターンスコア伝播部313とを含む。
インスタンススコア更新部311は、ラベルを基に、インスタンス候補の信頼度スコアを更新する。
インスタンススコア逆伝播部312は、更新されたインスタンス候補の信頼度スコアを基に、インスタンス候補抽出部302が受信したパターンの信頼度スコアを更新する。
パターンスコア伝播部313は、インスタンススコア逆伝播部312において更新されたパターンの信頼度スコアを基に、インスタンス候補の信頼度スコアを更新する。
なお、インスタンススコア再計算部310及び上記各構成の詳細な動作についての後ほど説明する。
図1を用いた説明に戻る。
インスタンス選定部306は、抽出されるインスタンスとして、更新後の信頼度スコアを基に、信頼度スコアが高い方から所定の範囲のインスタンス候補を選定する。そして、インスタンス選定部306は、選定したインスタンスをパターン抽出部200に送信する。インスタンス選定部306は、インスタンスに合わせて信頼度スコアを送信する。
[動作の説明]
次に、図面を参照して、情報処理装置100の動作について説明する。
図3は、第1の実施形態に係る情報処理装置100の動作の一例を示すフローチャートである。
パターン候補抽出部202は、シードインスタンスを受信する(ステップS101)。パターン候補抽出部202は、シードインスタンスの信頼度スコアの初期値(例えば、1.0)を受信する。
次に、パターン候補抽出部202は、パターン候補として、シードインスタンスに関連(共起)するパターン候補を抽出する(ステップS102)。
パターンスコア計算部203は、抽出されたパターン候補の信頼度スコアを算出する(ステップS103)。
パターン選定部206は、信頼度スコアを基に、パターン候補から、インスタンス抽出部300に送信するパターンを選定する(ステップS104)。
次に、インスタンス候補抽出部302は、選定されたパターンに関連(共起)するインスタンス候補を抽出する(ステップS111)。
インスタンススコア計算部303は、抽出されたインスタンス候補の信頼度スコアを算出する(ステップS112)。
インスタンスラベル付与部304は、信頼度スコアが算出されたインスタンス候補の中から、ラベルを付与するインスタンス候補を選定する。そして、インスタンスラベル付与部304は、選定したインスタンス候補に、ラベルを付与する(ステップS113)。
インスタンススコア更新部311は、ラベルに基づいて、インスタンス候補の信頼度スコアを更新する(ステップS114)。より具体的には、インスタンススコア更新部311は、正ラベルが付与されたインスタンス候補の信頼度スコアを増加させ、負ラベルが付与されたインスタンス候補の信頼度スコアを減少させる。例えば、信頼度スコアが、「0」と「1」との間の値を取る場合、インスタンススコア更新部311は、正ラベルがついたインスタンス候補の信頼度スコアを「1」とし、負ラベルがついたインスタンス候補の信頼度スコアを「0」としてもよい。
インスタンススコア逆伝播部312は、修正されたインスタンス候補の信頼度スコアを基に、インスタンス候補に対応するパターンの信頼度スコアを再計算(修正)する(ステップS115)。
パターンスコア伝播部313は、再計算後のパターンの信頼度スコアを基に、インスタンス候補の信頼度スコアを再計算(修正)する(ステップS116)。
インスタンス選定部306は、再計算後のインスタンス候補の信頼度スコアを基に、インスタンス候補から、パターン抽出部200に送信するインスタンスを選定する(ステップS117)。
ステップS117が終了すると、情報処理装置100は、処理が終了か否かを判定する(ステップS118)。つまり、情報処理装置100は、所定の条件(例えば、抽出(獲得)したインスタンスの数が閾値を超えた)を満足したか否かを判定する。
条件を満足していない場合(ステップS118でNo)、情報処理装置100は、ステップS102に戻り、同様の動作を繰り返す。
条件を満足している場合(ステップS118でYes)、情報処理装置100は、動作を終了する。
[効果の説明]
次に、第1の実施形態に係る情報処理装置100の効果について説明する。
情報処理装置100は、インスタンスを適切に選定するとの効果を奏することができる。
その理由は、次のとおりである。
パターン抽出部200のパターン候補抽出部202が、インスタンスに関連(共起)するパターン候補を抽出する。
パターンスコア計算部203は、抽出されたパターン候補の信頼度スコアを算出する。
パターン選定部206が、抽出されるパターンとして、所定の範囲の信頼度スコアとなったパターン候補を選定する。
そして、インスタンス抽出部300のインスタンス候補抽出部302が、選定されたパターンに関連(共起)するインスタンス候補を抽出する。
インスタンススコア計算部303が、抽出されたインスタンス候補に対する信頼度スコアを算出する。
インスタンスラベル付与部304が、インスタンススコア再計算部310の対象となるインスタンス候補を選定する。そして、インスタンスラベル付与部304が、インスタンス候補がカテゴリに含まれるか否かを基に、選定されたインスタンス候補にカテゴリに含まれるか否かを示す情報(ラベル)を付与する。
インスタンススコア再計算部310が、選定されたインスタンス候補のラベルを基に、インスタンス候補の信頼度スコアを再計算する。
そして、インスタンス選定部306が、再計算(修正)された信頼度スコアを基にインスタンスを選定する。
このように、情報処理装置100は、カテゴリに含まれるか否かの情報(ラベル)を信頼度スコアに反映しているためである。
なお、より詳細には、インスタンススコア再計算部310のインスタンススコア更新部311が、正ラベルが付与されたインスタンス候補(カテゴリに含まれるインスタンス候補)の信頼度スコアを高くする。また、インスタンススコア更新部311が、負ラベルが付与されたインスタンス候補(カテゴリに含まれないインスタンス候補)の信頼度スコアを低くする。
インスタンススコア逆伝播部312が、更新されたインスタンス候補の信頼度スコアを基に、関連(共起)するパターンの信頼度スコアを再計算(修正)する。
パターンスコア伝播部313が、修正されたパターンの信頼度スコアを基に、インスタンス候補の信頼度スコアに再計算(修正)する。
このように、インスタンススコア再計算部310は、インスタンス候補がカテゴリに含まれるか否かを示す情報であるラベルに対応して、インスタンス候補の信頼度スコアを更新する。具体的には、インスタンススコア再計算部310は、カテゴリに含まれないインスタンス候補の信頼度スコアを減少させ、カテゴリに含まれるインスタンス候補の信頼度スコアを増加させる。
このように、情報処理装置100は、カテゴリに含まれるか否かの情報(ラベル)を、インスタンス候補の信頼度スコアに反映している。
[構成の変形例]
第1の実施形態の構成の変形例を説明する。
以上の説明した情報処理装置100は、次のように構成される。
例えば、情報処理装置100の各構成部は、ハードウェア回路、具体的には電気回路構成(circuitry)で構成されてもよい。ここで、電気回路構成(circuitry)とは、単一のデバイス(single device)、複数のデバイス(multiple devices)、又は、チップセット(chipset)を概念的に含む文言である。
また、情報処理装置100において、各構成部は、ネットワークを介して接続された複数の装置を用いて、構成されてもよい。この場合、情報処理装置100は、複数の装置を含むシステムとして構成されてもよい。なお、このシステムは、ネットワークなどを介してソフトウェアを提供し、利用者が必要な時に必要なサービスを呼び出して利用するサービス(Software as a Service (SaaS))として、提供されてもよい。
例えば、情報処理装置100の各構成は、ネットワークを介して接続された装置群(クラウド(cloud))を用いて構成されてもよい。そのため、上記の電気回路構成(circuitry)は、クラウドを含んでもよい。
例えば、情報処理装置100において、パターン抽出部200とインスタンス抽出部300とは、別装置として構成されてもよい。
また、パターン抽出部200及び/又はインスタンス抽出部300に含まれる各構成が、ネットワーク又はバスなどを介して接続された装置として構成されてもよい。
図20は、このような場合の一例である情報処理装置102の構成の一例を示すブロック図である。情報処理装置102は、情報処理装置100の構成の第1の変形例に相当する。
情報処理装置102は、インスタンスラベル付与部304とインスタンススコア再計算部310とを含む。インスタンスラベル付与部304とインスタンススコア再計算部310とは、情報処理装置100におけるインスタンスラベル付与部304とインスタンススコア再計算部310と同様に動作する。
すなわち、インスタンスラベル付与部304は、図示しないインスタンススコア計算部303に相当する構成から信頼度スコアとインスタンス候補とを受信し、ラベルを付与するインスタンス候補を選択する。そして、インスタンスラベル付与部304は、選択したインスタンス候補にラベルを付与する。
インスタンススコア再計算部310は、ラベルを基に、インスタンス候補の信頼度スコアを再計算する。なお、インスタンススコア再計算部310は、再計算において、インスタンス候補抽出部302に相当する構成に含まれるパターン及びパターンの信頼度スコアを用いてもよい。
そして、インスタンススコア再計算部310は、信頼度スコアが更新されたインスタンス候補を、インスタンス選定部306に相当する構成に送信する。
上記の動作を基に、情報処理装置102は、情報処理装置100における効果と同様の効果を奏することができる。
その理由は、上記のように、インスタンスラベル付与部304が、インスタンススコア再計算部310の対象となるインスタンス候補を選定する。そして、インスタンスラベル付与部304が、インスタンス候補がカテゴリに含まれるか否かを基に、選定されたインスタンス候補にカテゴリに含まれるか否かを示す情報(ラベル)を付与する。そして、インスタンススコア再計算部310が、選定されたインスタンス候補のラベルを基に、インスタンス候補の信頼度スコアを再計算する。
このように、情報処理装置102は、カテゴリに含まるか否かの情報(ラベル)を信頼度スコアに反映しているためである。
なお、情報処理装置102は、本発明における最小構成である。
また、情報処理装置100において、複数の構成部は、1つのハードウェアで構成されてもよい。
また、情報処理装置100は、CPU(Central Processing Unit)と、ROM(Read Only Memory)と、RAM(Random Access Memory)とを含むコンピュータ装置として実現されてもよい。情報処理装置100は、上記構成に加え、さらに、入出力接続回路(IOC:Input / Output Circuit)と、ネットワークインターフェース回路(NIC:Network Interface Circuit)とを含むコンピュータ装置として実現されてもよい。
図4は、CPUを用いた情報処理装置600の構成の一例を示すブロック図である。
情報処理装置600は、CPU610と、ROM620と、RAM630と、内部記憶装置640と、IOC650と、NIC680とを含み、コンピュータ装置を構成している。
CPU610は、ROM620からプログラムを読み込む。そして、CPU610は、読み込んだプログラムに基づいて、RAM630と、内部記憶装置640と、IOC650と、NIC680とを制御する。そして、CPU610を含むコンピュータは、これらの構成を制御し、図1に示されている、パターン抽出部200と、インスタンス抽出部300としての各機能を実現する。
CPU610は、各機能を実現する際に、RAM630又は内部記憶装置640を、プログラムの一時記憶媒体として使用してもよい。
また、CPU610は、コンピュータで読み取り可能にプログラムを記憶した記憶媒体700が含むプログラムを、図示しない記憶媒体読み取り装置を用いて読み込んでもよい。あるいは、CPU610は、NIC680を介して、図示しない外部の装置からプログラムを受け取り、RAM630に保存して、保存したプログラムを基に動作してもよい。
ROM620は、CPU610が実行するプログラム及び固定的なデータを記憶する。ROM620は、例えば、P−ROM(Programmable-ROM)又はフラッシュROMである。
RAM630は、CPU610が実行するプログラム及びデータを一時的に記憶する。RAM630は、例えば、D−RAM(Dynamic-RAM)である。
内部記憶装置640は、情報処理装置600が長期的に保存するデータ及びプログラムを記憶する。また、内部記憶装置640は、CPU610の一時記憶装置として動作してもよい。内部記憶装置640は、例えば、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)又はディスクアレイ装置である。
ここで、ROM620と内部記憶装置640は、不揮発性(non-transitory)の記憶媒体である。一方、RAM630は、揮発性(transitory)の記憶媒体である。そして、CPU610は、ROM620、内部記憶装置640、又は、RAM630に記憶されているプログラムを基に動作可能である。つまり、CPU610は、不揮発性記憶媒体又は揮発性記憶媒体を用いて動作可能である。
IOC650は、CPU610と、入力機器660及び表示機器670とのデータを仲介する。IOC650は、例えば、IOインターフェースカード又はUSB(Universal Serial Bus)カードである。さらに、IOC650は、USBのような有線に限らず、無線を用いてもよい。
入力機器660は、情報処理装置600の操作者からの入力指示を受け取る機器である。入力機器660は、例えば、キーボード、マウス又はタッチパネルである。
表示機器670は、情報処理装置600の操作者に情報を表示する機器である。表示機器670は、例えば、液晶ディスプレイである。
NIC680は、ネットワークを介した図示しない外部の装置とのデータのやり取りを中継する。NIC680は、例えば、LAN(Local Area Network)カードである。さらに、NIC680は、有線に限らず、無線を用いてもよい。
このように構成された情報処理装置600は、情報処理装置100と同様の効果を得ることができる。
その理由は、情報処理装置600のCPU610が、プログラムに基づいて情報処理装置100と同様の機能を実現できるためである。
<第2の実施形態>
図面を参照して、本発明における第2の実施形態について説明する。
[構成の説明]
まず、第2の実施形態に係る情報処理装置100の構成について、図面を参照して説明する。
図5は、第2の実施形態に係る情報処理装置101の構成の一例を示すブロック図である。なお、第2の実施形態に係る情報処理装置101は、図4に示されているコンピュータを用いて構成されてもよい。
図5に示されているように、情報処理装置101は、パターン抽出部201と、インスタンス抽出部300とを含む。
インスタンス抽出部300は、第1の実施形態と同様のため、詳細な説明を省略する。
パターン抽出部201は、第1の実施形態に係るパターン抽出部200に含まれる構成に加え、パターンラベル付与部204及びパターンスコア再計算部210を含む。そこで、第1の実施形態の同様の構成についての詳細な説明を省略し、本実施形態に特有の構成について説明する。
パターンラベル付与部204は、ラベルを付与するパターン候補を選定する。パターンラベル付与部204が用いる選定方法は、特に、制限はない。例えば、パターンラベル付与部204は、パターン候補の信頼度スコアが高い方から所定の数のパターン候補を選択してもよい。あるいは、パターンラベル付与部204は、パターン候補の信頼度スコアの順位が所定の範囲のパターン候補を選択してもよい。
そして、パターンラベル付与部204は、選定されたパターン候補に関連(共起)するインスタンスがカテゴリに含まれる場合、パターン候補に正ラベルを付与する。パターンラベル付与部204は、選定されたパターン候補に関連(共起)するインスタンスがカテゴリに含まれない場合、パターン候補に負ラベルを付与する。
なお、パターン候補が、カテゴリに含まれるインスタンスとカテゴリに含まれないインスタンスとに関連(共起)する場合、パターンラベル付与部204は、所定の規則に基づいて、ラベルを付与すればよい。例えば、カテゴリに含まれるインスタンスの数が、カテゴリに含まれないインスタンスの数より多い場合に、パターンラベル付与部204は、正ラベルを付与してもよい。あるいは、カテゴリに含まれるインスタンスがひとつでもある場合、パターンラベル付与部204は、正ラベルを付与してもよい。
このように、パターンラベル付与部204は、少なくとも一部のパターン候補にラベルを付与する。
なお、パターンラベル付与部204は、全てのパターン候補にラベルを付与してもよい。
パターンスコア再計算部210は、パターン候補に付与されたラベルを基に、パターン候補の信頼度スコアを再計算する。
図6は、第2の実施形態に係るパターンスコア再計算部210の構成の一例を示すブロック図である。
図6に示されているように、パターンスコア再計算部210は、パターンスコア更新部211と、パターンスコア逆伝播部212と、インスタンススコア伝播部213とを含む。
パターンスコア更新部211は、パターン候補に付与されたラベルを基に、パターン候補の信頼度スコアを更新する。具体的には、パターンスコア更新部211は、正ラベルを付与されたパターン候補の信頼度スコアを高くし、負ラベルを付与されたパターン候補の信頼度スコアを低くする。
パターンスコア逆伝播部212は、更新されたパターン候補の信頼度スコアを基に、信頼度スコアが更新されたパターン候補に対応するインスタンスの信頼度スコアを再計算(更新)する。
インスタンススコア伝播部213は、パターンスコア逆伝播部212が更新したインスタンスの信頼度スコアを基に、インスタンスに対応するパターン候補の信頼度スコアを再計算(更新)する。
図5を用いた説明に戻る。
パターン選定部206は、更新された信頼度スコアを用いて、パターンを選定する。
[動作の説明]
次に、第2の実施形態に係る情報処理装置101の動作について説明する。
なお、以下の説明において、インスタンス抽出部300など、第1の形態と同様の構成の動作の説明を省略し、本実施形態に特有の動作について説明をする。つまり、パターンラベル付与部204及びパターンスコア再計算部210に関連する動作について説明する。
図7は、パターンラベル付与部204及びパターンスコア再計算部210の動作の一例を示すフローチャートである。図7に示されている動作は、図3において、ステップS103と、ステップS104との間の実行される動作である。
パターンラベル付与部204は、ラベルを付与するパターン候補を選択する。例えば、パターンラベル付与部204は、ラベルを付与するパターン候補として、信頼度スコアが大きい方から所定の数のパターン候補を選択してもよい。ただし、パターンラベル付与部204は、全てのパターン候補を選択してもよい。
そして、パターンラベル付与部204は、選択されたパターン候補にラベルを付与する(ステップS105)。具体的には、パターンラベル付与部204は、パターン候補に対応するインスタンスがカテゴリに含まれる場合、そのパターン候補に正ラベルを付与する。一方、パターン候補に対応するインスタンスがカテゴリに含まれない場合、パターンラベル付与部204は、そのパターン候補に負ラベルを付与する。
次に、パターンスコア再計算部210のパターンスコア更新部211は、付与されたラベルを基に、パターン候補の信頼度スコアを更新する(ステップS106)。具体的には、パターンスコア更新部211は、正ラベルが付与されたパターン候補の信頼度スコアを増加させる。一方、パターンスコア更新部211は、負ラベルが付与されたパターン候補の信頼度スコアを減少させる。例えば、信頼度スコアが、「0」と「1」との間の値を取る場合、パターンスコア更新部211は、正ラベルが付与されたパターン候補の信頼度スコアを「1」とし、負ラベルが付与されたパターン候補の信頼度スコアを「0」としてもよい。
次に、パターンスコア逆伝播部212は、更新されたパターン候補の信頼度スコアを基に、パターン候補に対応するインスタンスの信頼度スコアを再計算(修正)する(ステップS107)。
インスタンススコア伝播部213は、修正されたインスタンスの信頼度スコアを基に、インスタンスに対応するパターン候補の信頼度スコアを再計算(修正)する(ステップS108)。
これ以降、情報処理装置101は、第1に実施形態の情報処理装置100と同様に動作する。
このように、パターンラベル付与部204は、カテゴリに含まれるインスタンスに対応したパターン候補に正ラベルを付与し、カテゴリに含まれないインスタンスに対応したパターン候補に負ラベルを付与する。
そして、パターンスコア再計算部210は、ラベルに基づいて、カテゴリに含まれるインスタンスに対応したパターン候補の信頼度スコアを高くし、カテゴリに含まれないインスタンスに対応したパターン候補の信頼度スコアを低くする。
そして、第2の実施形態に係るパターン選定部206は、上記のとおり、ラベルに基づいて修正された信頼度スコアを用いてパターン候補を選定する。
つまり、パターン抽出部201は、カテゴリに含まれるインスタンスに対応したパターン候補が、カテゴリに含まれないインスタンスに対応したパターン候補より選定されるように、信頼度スコアを更新している。
このように、パターン抽出部201は、ラベルを、パターン候補の信頼度スコアに関連付けている。
そのため、第2の実施形態に係るパターン抽出部201は、第1の実施形態のパターン抽出部200より適切なパターンを抽出する。
第2の実施形態に係るインスタンス抽出部300は、上記のように、より適切に抽出されたパターンを用いるため、第1の実施形態より適切なインスタンスを選定できる。
つまり、第2の実施形態に係る情報処理装置101は、第1の実施形態に係る情報処理装置100に対して、より適切なインスタンスを選定することができる。
[効果の説明]
次に、第2の実施形態に係る情報処理装置101の効果について説明する。
情報処理装置101は、第1の実施形態の効果に加え、さらに、より適切なインスタンスを選定するとの効果を奏することができる。
その理由は、次のとおりである。
パターンラベル付与部204が、パターン候補に、パターン候補に関連するインスタンスがカテゴリに含まれるか否かを示す情報(ラベル)を付与する。
パターンスコア再計算部210のパターンスコア更新部211は、ラベルを基に、パターン候補の信頼度スコアを再計算する。具体的には、パターンスコア更新部211は、正ラベルが付与されたパターン候補の信頼度スコアを高くし、負ラベルが付与されたパターン候補の信頼度スコアを低くする。
パターンスコア逆伝播部212は、再計算されたパターン候補の信頼度スコアを基に、関連するインスタンスの信頼度スコアを再計算する。
そして、インスタンススコア伝播部213は、再計算後のインスタンスの信頼度スコアを基に、パターン候補の信頼度スコアを再計算する。
その結果として、パターン抽出部201は、関連するインスタンスがカテゴリに含まれるか否かを考慮したパターンを選定し、インスタンス抽出部300に送信できるためである。
<第3の実施形態>
図面を参照して、本発明における第3の実施形態について説明する。
[構成の説明]
第3の実施形態は、第1の実施形態と比較して、インスタンススコア再計算部310の構成が異なる。そこで、第1の実施形態と同様の構成の詳細な説明を省略し、第3の実施形態に係るインスタンススコア再計算部310の構成について、図面を参照して説明する。なお、第3の実施形態は、図4に示されているコンピュータを用いて構成されてもよい。
図8は、第3の実施形態に係るインスタンススコア再計算部315の構成の一例を示すブロック図である。
図8に示されているとおり、インスタンススコア再計算部315は、第1の実施形態におけるインスタンススコア再計算部310の構成に加え、インスタンス負例削除部314を含む。そのため、第1の実施形態と同様の構成の詳細な説明を省略し、インスタンス負例削除部314について説明する。
インスタンス負例削除部314は、インスタンススコア逆伝播部312において負ラベルが付与されたインスタンス候補を削除する。
そのため、パターンスコア伝播部313は、負ラベルが付与されたインスタンス候補に対する処理を削減できる。
なお、インスタンス負例削除部314の位置は、図8に示されている位置に、限られない。例えば、インスタンス負例削除部314は、インスタンススコア更新部311の処理の前において、負ラベルを付与されたインスタンス候補を削除してもよい。あるいは、インスタンス負例削除部314は、パターンスコア伝播部313の処理の後で、負ラベルを付与されたインスタンス候補を削除してもよい。
ただし、インスタンス負例削除部314が、パターンスコア伝播部313の処理の後で負ラベルを付与されたインスタンス候補を削除する場合、パターンスコア伝播部313における処理は、削減されない。
このように、第3の実施形態に係るインスタンススコア再計算部315は、負ラベルが付与されたインスタンス候補を削除する。
[効果の説明]
次に、第3の実施形態の効果について説明する。
第3の実施形態は、第1の実施形態の効果に加え、より適切なインスタンスを選定するとの効果を奏することができる。
その理由は、次のとおりである。
負ラベルが付与されたインスタンス候補は、抽出(獲得)の対象とはならないインスタンス候補である。そこで、第3の実施形態に係るインスタンス負例削除部314は、負ラベルが付与されたインスタンス候補を削除する。この動作を基に、第3の実施形態は、負ラベルが付与されたインスタンス候補を選定対象のインスタンス候補から削除するためである。
また、第3の実施形態は、処理の負荷を低減するとの効果を奏することができる。
その理由は、インスタンス負例削除部314が、負ラベルを付与されたインスタンス候補を削除するため、パターンスコア伝播部313における処理対象のインスタンス候補の数が、少なくなるためである。
<第4の実施形態>
図面を参照して、本発明における第4の実施形態について説明する。
[構成の説明]
第4の実施形態は、第2の実施形態と比較して、パターンスコア再計算部210の構成が異なる。そこで、第2の実施形態と同様の構成の詳細な説明を省略し、第4の実施形態に係るパターンスコア再計算部210の構成について図面を参照して詳細に説明する。なお、第4の実施形態は、図4に示されているコンピュータを用いて構成されてもよい。
図9は、第4の実施形態に係るパターンスコア再計算部215の構成の一例を示すブロック図である。
図9に示されているとおり、パターンスコア再計算部215は、第2の実施形態におけるパターンスコア再計算部210の構成に加え、パターン負例削除部214を含む。そのため、第2の実施形態と同様の構成の詳細な説明を省略し、パターン負例削除部214について説明する。
パターン負例削除部214は、パターンスコア逆伝播部212において負ラベルが付与されたパターン候補を削除する。
そのため、インスタンススコア伝播部213は、負ラベルが付与されたパターン候補に対する処理を削減できる。
なお、パターン負例削除部214の位置は、図9に示されている位置に、限られない。例えば、パターン負例削除部214は、パターンスコア更新部211の処理の前において、負ラベルを付与されたパターン候補を削除してもよい。あるいは、パターン負例削除部214は、インスタンススコア伝播部213の処理の後で、負ラベルを付与されたパターン候補を削除してもよい。
ただし、パターン負例削除部214が、インスタンススコア伝播部213の処理の後で負ラベルを付与されたパターン候補を削除する場合、インスタンススコア伝播部213における処理は、削減されない。
このように、第4の実施形態に係るパターンスコア再計算部215は、負ラベルが付与されたパターン候補を削除する。
[効果の説明]
次に、第4の実施形態の効果について説明する。
第4の実施形態は、第2の実施形態の効果に加え、より適切なインスタンスを選定するとの効果を奏することができる。
その理由は、次のとおりである。
負ラベルが付与されたパターン候補は、カテゴリに含まれないインスタンスに関連するパターン候補である。つまり、負ラベルが付与されたパターン候補は、インスタンスを選定に用いない方がよいパターン候補である。そこで、第4の実施形態において、パターン負例削除部214は、負ラベルが付与されたパターン候補を削除する。この動作を基に、第4の実施形態は、負ラベルが付与されたパターン候補をインスタンスの選定に用いないためである。
また、第4の実施形態は、処理の負荷を低減するとの効果を奏することができる。
その理由は、パターン負例削除部214が、負ラベルを付与されたパターン候補を削除するため、インスタンススコア伝播部213における処理対象のパターン候補の数が、少なくなるためである。
[詳細例]
次に、具体的な値を用いて、本発明の実施形態の動作を説明する。
[詳細例1]
まず、第1の実施形態に係る情報処理装置100の詳細な動作を説明する。
(前提条件)
動作の前提を説明する。
対象となるデータ(文書データ)は、予め、情報処理装置100に保持されているとする。
カテゴリは、「食べ物」の集合とする。カテゴリに関する情報は、予め、保持されているとする。
シードインスタンスは、「パスタ」及び「魚」とする。以下の説明において、インスタンス及びインスタンス候補の変数は、「I」とする。インスタンスの識別子は、変数i(iは正の整数)とする。以下、「パスタ」を、「I」とする。「魚」を、「I」とする。
パターン及びパターン候補の変数は、変数Pとする。パターンの識別子は、変数j(jは正の整数)とする。
インスタンス及びパターンの信頼度スコアを表す関数を、関数r()とする。関数r()の引数は、インスタンス又はパターンである。なお、以下の説明では、信頼度スコアの計算において、PMIが用いられるとする。PMIを示す関数を、「PMI(インスタンス、パターン)」とする。
また、インスタンスと信頼度スコアとの組合せを、(インスタンス、信頼度スコア)と表す。同様に、パターンと信頼度スコアとの組合せを、(パターン、信頼度スコア)と表す。
シードインスタンスの信頼度スコアの初期値は、「1.000」とする。
データの組合せの集合は、[]を用いて示すとする。
また、具体的な数字の計算において、小数第4位を四捨五入する。
(詳細動作)
各シードインスタンスの信頼度スコアは、次のようになる。
r(I)=1.000
r(I)=1.000
したがって、情報処理装置100が取得するシードインスタンスは、例えば、次のようになる。
シードインスタンス=[(パスタ、1.000)、(魚、1.000)]
パターン抽出部200のパターン候補抽出部202は、上記のシードインスタンスを基に、インスタンスに関連(共起)するパターン候補を抽出する。
ここでは、パターン候補抽出部202が、インスタンス「パスタ」に関連(共起)するパターン候補として、パターン候補「パスタを食べる」を抽出したとする。さらに、パターン候補抽出部202は、インスタンス「魚」に関連(共起)するパターン候補として、パターン候補「魚を食べる」及びパターン候補「魚の店に行く」を抽出したとする。
そして、パターン候補抽出部202は、抽出したパターン候補に含まれるインスタンスを一般化する。以下、パターン候補抽出部202は、一般化として、インスタンスを変数Xに置き換えるとする。つまり、パターン候補抽出部202は、パターン候補として、パターン候補「Xを食べる」及びパターン候補「Xの店に行く」を抽出する。以下の説明において、パターン候補「Xを食べる」を「P」とし、パターン候補「Xの店に行く」を「P」とする。
次に、パターンスコア計算部203は、パターン候補P及びパターン候補Pの信頼度スコアを計算する。
具体的には、パターンスコア計算部203は、パターン候補の信頼度スコアとして、次に示す数1を用いる。
Figure 2017138549
数1において、Nは、インスタンスの数である。maxpmiは、全てのインスタンスとパターンとに関するPMI()における最大値である。ただし、数1の分子の合計において、関連しないインスタンスとパターンについては、合計の算出に用いない。
ここでは、パターンスコア計算部203は、各PMIを以下のように算出したとする。
PMI(I、P)=1.500
PMI(I、P)=0.900
PMI(I、P)=NU(not used)
PMI(I、P)=1.300
上記において、「NU(not used)」は、関連(共起)しないこと、つまり、処理の対象外を示している。例えば、インスタンスI(パスタ)は、パターン候補P(Xの店に行く)に関連していない。つまり、PMI(I、P)は、パターン候補Pの信頼度スコアの算出に用いられない。
また、上記より、maxpmiは、1.500となる。なお、インスタンス数(NI)は、2である。
その結果、パターンスコア計算部203は、各パターン候補の信頼度スコアとして、次に示されている値を算出する。
r(P)=(1.000×1.500+1.000×0.900)/(2.000×1.500)=0.800
r(P)=(1.000×1.300)/(2.000×1.500)=0.433
パターン選定部206は、信頼度スコアを基に、パターン候補からパターンを選定する。ただし、この説明では、パターン選定部206は、パターンとして、信頼度スコアの上位から2つのパターン候補を選択するとする。したがって、今の場合、パターン選定部206は、パターンとして、上記の2つのパターン候補を選定し、インスタンス抽出部300に送信する。つまり、パターン候補「Xを食べる(P)」とパターン候補「Xの店に行く(P)」とは、インスタンス抽出部300に送信されるパターンとなる。
図10は、シードインスタンスと、パターン抽出部200がインスタンス抽出部300に送信するパターンとの関係を示す図である。なお、図10は、パターンスコア計算部203が信頼度スコアを算出したパターン候補とインスタンスとを示す図でもある。
インスタンス抽出部300のインスタンス候補抽出部302は、受け付けたパターンに関連(共起)するインスタンス候補を抽出する。
ここで、インスタンス候補抽出部302が、パターンP「Xを食べる」に関連(共起)するインスタンス候補として、インスタンス候補「パスタ」、「魚」、「イタリアン」、及び、「もつ鍋」を抽出したとする。また、インスタンス候補抽出部302が、パターンP「Xの店に行く」に関連(共起)するインスタンス候補として、インスタンス候補「魚」、「野球」、及び「サッカー」を抽出したとする。
したがって、インスタンス候補抽出部302は、インスタンス候補「パスタ」、「魚」、「イタリアン」、「もつ鍋」、「野球」及び「サッカー」を抽出する。以下、「イタリアン」を「I」とする。「もつ鍋」を「I」とする。「野球」を「I」とする。「サッカー」を「I」とする。
次に、インスタンススコア計算部303は、抽出されたインスタンス候補(パスタ、魚、イタリアン、もつ鍋、野球、及び、サッカー)の信頼度スコアを計算する。
具体的には、インスタンススコア計算部303は、インスタンス候補の信頼度スコアとして、次に示す数2を用いる。
Figure 2017138549
数2において、Nは、パターンの数である。maxpmiは、数1と同様に、全てのインスタンスとパターンとに関するPMI()における最大値である。また、数2の分子の合計において、関連しないインスタンスとパターンについては、合計の算出に用いない。
ここでは、インスタンススコア計算部303は、上記のPMIに加え、各インスタンス候補とパターンとにおけるPMIを、次のように算出したとする。
PMI(I、P)=0.750
PMI(I、P)=0.800
PMI(I、P)=NU
PMI(I、P)=NU
PMI(I、P)=NU
PMI(I、P)=NU
PMI(I、P)=1.500
PMI(I、P)=1.400
その結果、インスタンススコア計算部303は、各インスタンス候補の信頼度スコアとして、次の値を算出する。
r(I)=(0.800×1.500)/(2.000×1.500)=0.400
r(I)=(0.800×0.900+0.433×1.300)/(2.000×1.500)=0.428
r(I)=(0.800×0.750)/(2.000×1.500)=0.200
r(I)=(0.800×0.800)/(2.000×1.500)=0.213
r(I)=(0.433×1.500)/(2.000×1.500)=0.217
r(I)=(0.433×1.400)/(2.000×1.500)=0.202
図11は、パターンとインスタンス候補との関係を示す図である。
次に、インスタンスラベル付与部304は、ラベル(正ラベル又は負ラベル)を付与するインスタンス候補を選定する。ここでは、インスタンス選定部306が、4つのインスタンスを選定するとする。そこで、インスタンスラベル付与部304は、信頼度スコアが高い方から4番目のインスタンス候補と5番目のインスタンス候補とにラベルを付与する。具体的には、インスタンスラベル付与部304は、インスタンス候補「I(もつ鍋)」とインスタンス候補「I(サッカー)」とにラベルを付与する。
今の場合、カテゴリは、食べ物である。そのため、インスタンス候補「I(もつ鍋)」は、カテゴリ「食べ物」に含まれる。一方、インスタンス候補「(サッカー)」は、カテゴリ「食べ物」に含まれない。
そこで、インスタンスラベル付与部304は、インスタンス候補「I(もつ鍋)」に正ラベルを、インスタンス候補「I(サッカー)」に負ラベルを付与する。
次に、インスタンススコア更新部311は、付与されたラベルを基に、インスタンス候補の信頼度スコアを更新する。今の場合、インスタンス候補「I(もつ鍋)」は、正ラベルが付与されている。そこで、インスタンススコア更新部311は、インスタンス候補「I(もつ鍋)」の信頼度スコア(0.217)を高くする。具体的には、インスタンススコア更新部311は、インスタンス候補「I(もつ鍋)」の信頼度スコアを「1.000」に更新する。
また、インスタンス候補「I(サッカー)」は、負ラベルが付与されている。そこで、インスタンススコア更新部311は、インスタンス候補「I(サッカー)」の信頼度スコアを低くする。具体的には、インスタンススコア更新部311は、インスタンス候補「I(サッカー)」の信頼度スコアを「0.000」にする。
図12は、信頼度スコアが更新されたインスタンス候補を示す図である。
インスタンススコア逆伝播部312は、更新されたインスタンスの信頼度スコアを基に、パターンの信頼度スコアを再計算する。具体的には、インスタンススコア逆伝播部312は、数1を用いて各パターンの信頼度スコアを次のように算出する。ただし、インスタンスの数(N)は、先ほどの計算の時の「2」ではなく、「6」である。
r(P)=(0.400×1.500+0.428×0.900+0.200×0.750+1.000×0.8)/(6.000×1.500)=0.215
r(P)=(0.428×1.300+0.217×1.500+0.000×1.400)/(6.000×1.500)=0.098
図13は、信頼度スコアが更新されたパターンを示す図である。
パターンスコア伝播部313は、修正されたパターンの信頼度スコアを基に、インスタンス候補の信頼度スコアを再計算する。具体的な、各インスタンス候補の信頼度スコアは、次のとおりである。
r(I)=(0.215×1.500)/(2.000×1.500)=0.108
r(I)=(0.215×0.900+0.098×1.300)/(2.000×1.500)=0.107
r(I)=(0.215×0.750)/(2.000×1.500)=0.054
r(I)=(0.215×0.800)/(2.000×1.500)=0.057
r(I)=(0.098×1.500)/(2.000×1.500)=0.049
r(I)=(0.098×1.400)/(2.000×1.500)=0.046
図14は、更新されたパターンの信頼度スコアに基づいて再計算されたインスタンス候補の信頼度スコアを示す図である。
インスタンス選定部306は、インスタンスとして、インスタンスの信頼度スコアが大きい方から所定の数(例えば、4つ)のインスタンス候補を選定する。
今の場合、インスタンス選定部306は、インスタンスとして、インスタンス候補「I(パスタ)」、「I(魚)」、「I(もつ鍋)」、及び「I(イタリアン)」を選定する。
一方、図11に示されているインスタンス候補の信頼度スコアを用いた場合、インスタンス選定部306は、インスタンス候補「I(魚)」、「I(パスタ)」、「I(野球)」、及び「I(もつ鍋)」を、選定する。
このようの、情報処理装置100は、カテゴリ「食べ物」に属さないインスタンス「I(野球)」を選定せずに、カテゴリ「食べ物」に属するインスタンス「I(イタリアン)」を選定できている。
[詳細例2]
次に、第2の実施形態に係る情報処理装置101の詳細な動作を説明する。ただし、以下の詳細な説明として、第1の実施形態と同様の構成についての詳細な説明を省略し、第2の実施形態に特有な構成について説明する。具体的には、パターンラベル付与部204及びパターンスコア再計算部210の詳細な動作について説明する。
パターンスコア計算部203が、図10に示されているパターン候補の信頼度スコアを算出したとする。
そして、パターンラベル付与部204は、パターン候補Pに正ラベルを付与したとする。その結果、パターンスコア再計算部210は、パターン候補Pの信頼度スコアを高くする。すなわち、パターンスコア再計算部210のパターンスコア更新部211は、正ラベルが付与されたパターン候補Pの信頼度スコアを増加させる。具体的には、この説明では、パターンスコア更新部211は、パターン候補Pの信頼度スコアの値を「0.2」増加させる。
図15は、信頼度スコアを更新されたパターン候補Pを示す図である。
パターンスコア逆伝播部212は、更新されたパターン候補の信頼度スコアを基に、数2を用いて、インスタンス「I(パスタ)」及び「I(魚)」の信頼度スコアを再計算する。具体的には、パターンスコア逆伝播部212は、次のように、インスタンスの信頼度を算出する。
r(I)=0.800×1.500/(2.000×1.500)=0.400
r(I)=(0.800×0.900+0.633×1.300)/(2.000×1.500)=0.514
図16は、更新されたインスタンスの信頼度スコアを示す図である。
そして、インスタンススコア伝播部213は、更新されたインスタンスの信頼度スコアを基に、数1を用いてパターン候補の信頼度スコアを再計算する。具体的には、インスタンススコア伝播部213は、次に示されている信頼度スコアを算出する。
r(P)=(0.400×1.500+0.514×0.900)/(2.000×1.500)=0.354
r(P)=(0.514×1.300)/(2.000×1.500)=0.223
図17は、再計算後のパターン候補の信頼度スコアを示す図である。
ここで、パターン候補Pの信頼度スコアの、信頼度スコアの合計値に対する比率を確認する。
図10に示されているパターン候補Pの信頼度スコアの比率(初期の比率)は、次のとおりである。
初期の比率=0.433/(0.800+0.433)=0.351
一方で、上記の処理の後のパターン候補Pの信頼度スコアの比率(再計算後の比率)は、次のとおりである。
再計算後の比率=0.223/(0.354+0.223)=0.386
このように、パターン候補Pに正ラベルを付したことに基づいて、情報処理装置101は、パターン候補Pの比率を上げている。
このように、情報処理装置101は、パターン候補に付与されたラベルを基に、パターン候補の信頼度スコアを改善している。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成及び詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2016年 2月12日に出願された日本出願特願2016−025150を基礎とする優先権を主張し、その開示の全てをここに取り込む。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
[付記1]
所定のデータの集合であるカテゴリに含まれるデータであるインスタンスの候補であるインスタンス候補と所定のデータにおける特徴的な表現であるパターンとの関連する程度を表す数値である第1の信頼度スコアを基に、インスタンス候補の少なくとも一部に、第1のラベルを付与するインスタンスラベル付与手段と、
第1のラベルが付与されたインスタンス候補の第1の信頼度スコアを更新するインスタンススコア再計算手段と
を含む情報処理装置。
[付記2]
インスタンスに関連するパターン候補を抽出するパターン候補抽出手段と、
パターン候補がインスタンスに関連する程度を示す第2の信頼度スコアを算出するパターンスコア計算手段と、
第2の信頼度スコアを基に、パターン候補からパターンを選定するパターン選定手段と
を含むパターン抽出手段と、
選定されたパターンに関連するインスタンス候補を抽出するインスタンス候補抽出手段と、
抽出されたインスタンス候補がパターンと関連する程度を示す第1の信頼度スコアを算出するインスタンススコア計算手段と、
インスタンスラベル付与手段と、
インスタンススコア再計算手段と、
更新された第1の信頼度スコアを基に、インスタンス候補からインスタンスを選定するインスタンス選定手段と
を含むインスタンス抽出手段と
を含む付記1に記載の情報処理装置。
[付記3]
インスタンススコア再計算手段が、
インスタンス候補に付与された第1のラベルを基に、インスタンス候補の第1の信頼度スコアを更新するインスタンススコア更新手段と、
更新されたインスタンス候補の第1の信頼度スコアを基に、パターンの第2の信頼度スコアを再計算するインスタンススコア逆伝播手段と、
再計算されたパターンの第2の信頼度スコアを基に、インスタンス候補の第1の信頼度スコアを再計算するパターンスコア伝搬手段と
を含む付記2に記載の情報処理装置。
[付記4]
パターン抽出手段が、インスタンス抽出手段が選定したインスタンスを用いて動作する
付記2又は3に記載の情報処理装置。
[付記5]
パターン抽出手段とインスタンス抽出手段とが、所定の条件を満足するまで動作を繰り返す
付記4に記載の情報処理装置。
[付記6]
インスタンススコア再計算手段が、
インスタンス候補に付与された第1のラベルを基に、インスタンス候補を削除するインスタンス負例削除手段を含む
付記5に記載の情報処理装置。
[付記7]
パターン抽出手段が、さらに、
第2の信頼度スコアが付与されたパターン候補に、パターン候補の関連するインスタンスがカテゴリに含まれるか否かを示す第2のラベルを付与するパターンラベル付与手段と、
パターン候補に付与された第2のラベルを基に、パターン候補の第2の信頼度スコアを再計算するパターンスコア再計算手段と
を含む付記2ないし6のいずれか1項に記載の情報処理装置。
[付記8]
パターンスコア再計算手段が、
パターン候補に付与された第2のラベルを基に、パターン候補の第2の信頼度スコアを更新するパターンスコア更新手段と、
更新されたパターン候補の第2の信頼度スコアを基に、パターン候補に対応するインスタンスの第1の信頼度スコアを再計算するパターンスコア逆伝播手段と、
再計算されたインスタンスの第1の信頼度スコアを基に、パターン候補の第2の信頼度スコアを再計算するインスタンススコア伝搬手段と
を含む付記7に記載の情報処理装置。
[付記9]
パターンスコア再計算手段が、さらに、
パターン候補に付与された第2のラベルを基に、パターン候補を削除するパターン負例削除手段を
含む付記8に記載の情報処理装置。
[付記10]
所定のデータの集合であるカテゴリに含まれるデータであるインスタンスの候補であるインスタンス候補と所定のデータにおける特徴的な表現であるパターンとの関連する程度を表す数値である第1の信頼度スコアを基に、インスタンス候補の少なくとも一部に、第1のラベルを付与し、
第1のラベルが付与されたインスタンス候補の第1の信頼度スコアを更新する
情報処理方法。
[付記11]
所定のデータの集合であるカテゴリに含まれるデータであるインスタンスの候補であるインスタンス候補と所定のデータにおける特徴的な表現であるパターンとの関連する程度を表す数値である第1の信頼度スコアを基に、インスタンス候補の少なくとも一部に、第1のラベルを付与する処理と、
第1のラベルが付与されたインスタンス候補の第1の信頼度スコアを更新する処理と
をコンピュータに実行させるプログラムをコンピュータ読み取り可能に記録する記録媒体。
本発明は、大規模なコーパスからカテゴリに含まれるデータ(知識)を獲得する知識獲得の用途に適用できる。
また、本発明は、特定の分野のコーパスに対して、その分野に固有のカテゴリに含まれるデータ(知識)を獲得する用途にも適用可能である。
100 情報処理装置
101 情報処理装置
102 情報処理装置
200 パターン抽出部
201 パターン抽出部
202 パターン候補抽出部
203 パターンスコア計算部
204 パターンラベル付与部
206 パターン選定部
210 パターンスコア再計算部
211 パターンスコア更新部
212 パターンスコア逆伝播部
213 インスタンススコア伝播部
214 パターン負例削除部
215 パターンスコア再計算部
300 インスタンス抽出部
302 インスタンス候補抽出部
303 インスタンススコア計算部
304 インスタンスラベル付与部
306 インスタンス選定部
310 インスタンススコア再計算部
311 インスタンススコア更新部
312 インスタンススコア逆伝播部
313 パターンスコア伝播部
314 インスタンス負例削除部
315 インスタンススコア再計算部
600 情報処理装置
610 CPU
620 ROM
630 RAM
640 内部記憶装置
650 IOC
660 入力機器
670 表示機器
680 NIC
700 記憶媒体
900 カテゴリ知識獲得装置
901 カテゴリ知識獲得装置
920 パターン抽出部
922 パターン候補抽出部
923 パターンスコア計算部
926 パターン選定部
930 インスタンス抽出部
931 インスタンス抽出部
932 インスタンス候補抽出部
933 インスタンススコア計算部
934 チェック対象インスタンス選定部
935 負例チェック部
936 インスタンス選定部
937 インスタンス削除部
938 インスタンススコア再計算部
本発明は、情報(データ)の処理に関し、特に、情報(データ)を選択する情報処理装置、情報処理方法、及びプログラムに関する。
本発明の目的は、上記問題点を解決し、インスタンスを適切に選定(抽出)する情報処理装置、情報処理方法、及び、プログラムを提供することにある。
本発明の一形態におけるプログラムは、所定のデータの集合であるカテゴリに含まれるデータであるインスタンスの候補であるインスタンス候補と所定のデータにおける特徴的な表現であるパターンとの関連する程度を表す数値である第1の信頼度スコアを基に、インスタンス候補の少なくとも一部に、第1のラベルを付与する処理と、第1のラベルが付与されたインスタンス候補の第1の信頼度スコアを更新する処理とをコンピュータに実行させる
[付記11]
所定のデータの集合であるカテゴリに含まれるデータであるインスタンスの候補であるインスタンス候補と所定のデータにおける特徴的な表現であるパターンとの関連する程度を表す数値である第1の信頼度スコアを基に、インスタンス候補の少なくとも一部に、第1のラベルを付与する処理と、
第1のラベルが付与されたインスタンス候補の第1の信頼度スコアを更新する処理と
をコンピュータに実行させるプログラム
[付記3]
インスタンススコア再計算手段が、
インスタンス候補に付与された第1のラベルを基に、インスタンス候補の第1の信頼度スコアを更新するインスタンススコア更新手段と、
更新されたインスタンス候補の第1の信頼度スコアを基に、パターンの第2の信頼度スコアを再計算するインスタンススコア逆伝播手段と、
再計算されたパターンの第2の信頼度スコアを基に、インスタンス候補の第1の信頼度スコアを再計算するパターンスコア伝播手段
を含む付記2に記載の情報処理装置。
[付記8]
パターンスコア再計算手段が、
パターン候補に付与された第2のラベルを基に、パターン候補の第2の信頼度スコアを更新するパターンスコア更新手段と、
更新されたパターン候補の第2の信頼度スコアを基に、パターン候補に対応するインスタンスの第1の信頼度スコアを再計算するパターンスコア逆伝播手段と、
再計算されたインスタンスの第1の信頼度スコアを基に、パターン候補の第2の信頼度スコアを再計算するインスタンススコア伝播手段
を含む付記7に記載の情報処理装置。
[構成の説明]
まず、第2の実施形態に係る情報処理装置101の構成について、図面を参照して説明する。
このように、情報処理装置100は、カテゴリ「食べ物」に属さないインスタンス「I(野球)」を選定せずに、カテゴリ「食べ物」に属するインスタンス「I(イタリアン)」を選定できている。
パターンスコア逆伝播部212は、更新されたパターン候補の信頼度スコアを基に、数2を用いて、インスタンス「I(パスタ)」及び「I(魚)」の信頼度スコアを再計算する。具体的には、パターンスコア逆伝播部212は、次のように、インスタンスの信頼度スコアを算出する。
r(I)=0.800×1.500/(2.000×1.500)=0.400
r(I)=(0.800×0.900+0.633×1.300)/(2.000×1.500)=0.514
図16は、更新されたインスタンスの信頼度スコアを示す図である。

Claims (11)

  1. 所定のデータの集合であるカテゴリに含まれるデータであるインスタンスの候補であるインスタンス候補と前記所定のデータにおける特徴的な表現であるパターンとの関連する程度を表す数値である第1の信頼度スコアを基に、前記インスタンス候補の少なくとも一部に、第1のラベルを付与するインスタンスラベル付与手段と、
    前記第1のラベルが付与された前記インスタンス候補の前記第1の信頼度スコアを更新するインスタンススコア再計算手段と
    を含む情報処理装置。
  2. 前記インスタンスに関連するパターン候補を抽出するパターン候補抽出手段と、
    前記パターン候補が前記インスタンスに関連する程度を示す第2の信頼度スコアを算出するパターンスコア計算手段と、
    前記第2の信頼度スコアを基に、前記パターン候補から前記パターンを選定するパターン選定手段と
    を含むパターン抽出手段と、
    選定された前記パターンに関連する前記インスタンス候補を抽出するインスタンス候補抽出手段と、
    抽出された前記インスタンス候補における前記第1の信頼度スコアを算出するインスタンススコア計算手段と、
    前記インスタンスラベル付与手段と、
    前記インスタンススコア再計算手段と、
    更新された前記第1の信頼度スコアを基に、前記インスタンス候補から前記インスタンスを選定するインスタンス選定手段と
    を含むインスタンス抽出手段と
    を含む請求項1に記載の情報処理装置。
  3. 前記インスタンススコア再計算手段が、
    前記インスタンス候補に付与された前記第1のラベルを基に、前記インスタンス候補の前記第1の信頼度スコアを更新するインスタンススコア更新手段と、
    更新された前記インスタンス候補の前記第1の信頼度スコアを基に、前記パターンの前記第2の信頼度スコアを再計算するインスタンススコア逆伝播手段と、
    再計算された前記パターンの前記第2の信頼度スコアを基に、前記インスタンス候補の前記第1の信頼度スコアを再計算するパターンスコア伝搬手段と
    を含む請求項2に記載の情報処理装置。
  4. 前記パターン抽出手段が、前記インスタンス抽出手段が選定した前記インスタンスを用いて動作する
    請求項2又は3に記載の情報処理装置。
  5. 前記パターン抽出手段と前記インスタンス抽出手段とが、所定の条件を満足するまで動作を繰り返す
    請求項4に記載の情報処理装置。
  6. 前記インスタンススコア再計算手段が、
    前記インスタンス候補に付与された前記第1のラベルを基に、前記インスタンス候補を削除するインスタンス負例削除手段を
    含む請求項5に記載の情報処理装置。
  7. 前記パターン抽出手段が、さらに、
    前記第2の信頼度スコアが付与された前記パターン候補に、前記パターン候補の関連する前記インスタンスが前記カテゴリに含まれるか否かを示す第2のラベルを付与するパターンラベル付与手段と、
    前記パターン候補に付与された前記第2のラベルを基に、前記パターン候補の前記第2の信頼度スコアを再計算するパターンスコア再計算手段と
    を含む請求項2ないし6のいずれか1項に記載の情報処理装置。
  8. 前記パターンスコア再計算手段が、
    前記パターン候補に付与された前記第2のラベルを基に、前記パターン候補の前記第2の信頼度スコアを更新するパターンスコア更新手段と、
    更新された前記パターン候補の前記第2の信頼度スコアを基に、前記パターン候補に対応する前記インスタンスの前記第1の信頼度スコアを再計算するパターンスコア逆伝播手段と、
    再計算された前記インスタンスの前記第1の信頼度スコアを基に、前記パターン候補の前記第2の信頼度スコアを再計算するインスタンススコア伝搬手段と
    を含む請求項7に記載の情報処理装置。
  9. 前記パターンスコア再計算手段が、さらに、
    前記パターン候補に付与された前記第2のラベルを基に、前記パターン候補を削除するパターン負例削除手段を
    含む請求項8に記載の情報処理装置。
  10. 所定のデータの集合であるカテゴリに含まれるデータであるインスタンスの候補であるインスタンス候補と前記所定のデータにおける特徴的な表現であるパターンとの関連する程度を表す数値である第1の信頼度スコアを基に、前記インスタンス候補の少なくとも一部に、第1のラベルを付与し、
    前記第1のラベルが付与された前記インスタンス候補の前記第1の信頼度スコアを更新する
    情報処理方法。
  11. 所定のデータの集合であるカテゴリに含まれるデータであるインスタンスの候補であるインスタンス候補と前記所定のデータにおける特徴的な表現であるパターンとの関連する程度を表す数値である第1の信頼度スコアを基に、前記インスタンス候補の少なくとも一部に、第1のラベルを付与する処理と、
    前記第1のラベルが付与された前記インスタンス候補の前記第1の信頼度スコアを更新する処理と
    をコンピュータに実行させるプログラムをコンピュータ読み取り可能に記録する記録媒体。
JP2017566969A 2016-02-12 2017-02-08 情報処理装置、情報処理方法、及び、プログラム Active JP6881322B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016025150 2016-02-12
JP2016025150 2016-02-12
PCT/JP2017/004504 WO2017138549A1 (ja) 2016-02-12 2017-02-08 情報処理装置、情報処理方法、及び、記録媒体

Publications (2)

Publication Number Publication Date
JPWO2017138549A1 true JPWO2017138549A1 (ja) 2018-12-13
JP6881322B2 JP6881322B2 (ja) 2021-06-02

Family

ID=59563317

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017566969A Active JP6881322B2 (ja) 2016-02-12 2017-02-08 情報処理装置、情報処理方法、及び、プログラム

Country Status (3)

Country Link
US (1) US10803358B2 (ja)
JP (1) JP6881322B2 (ja)
WO (1) WO2017138549A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000222431A (ja) * 1999-02-03 2000-08-11 Mitsubishi Electric Corp 文書分類装置
JP2004288168A (ja) * 2003-03-05 2004-10-14 Hewlett Packard Co <Hp> クラスタリング方法プログラム及び装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005158010A (ja) 2003-10-31 2005-06-16 Hewlett-Packard Development Co Lp 分類評価装置・方法及びプログラム
JP4490876B2 (ja) * 2005-06-01 2010-06-30 日本電信電話株式会社 コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類プログラムおよびコンテンツ分類プログラムを記録した記録媒体
US8744883B2 (en) * 2006-12-19 2014-06-03 Yahoo! Inc. System and method for labeling a content item based on a posterior probability distribution
JP5325131B2 (ja) 2010-01-26 2013-10-23 日本電信電話株式会社 パターン抽出装置、パターン抽出方法及びプログラム
WO2014049708A1 (ja) * 2012-09-26 2014-04-03 株式会社 東芝 文書分析装置およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000222431A (ja) * 1999-02-03 2000-08-11 Mitsubishi Electric Corp 文書分類装置
JP2004288168A (ja) * 2003-03-05 2004-10-14 Hewlett Packard Co <Hp> クラスタリング方法プログラム及び装置

Also Published As

Publication number Publication date
WO2017138549A1 (ja) 2017-08-17
US10803358B2 (en) 2020-10-13
US20190042890A1 (en) 2019-02-07
JP6881322B2 (ja) 2021-06-02

Similar Documents

Publication Publication Date Title
US11481666B2 (en) Method and apparatus for acquiring information
US10915534B2 (en) Extreme value computation
JP2014149564A (ja) 情報処理装置、情報処理方法及びプログラム
JP6242930B2 (ja) センサデータ管理装置、センサデータ管理方法およびプログラム
US10528534B2 (en) Method and system for deduplicating data
CN113836314B (zh) 知识图谱构建方法、装置、设备以及存储介质
US20150106701A1 (en) Input support method and information processing system
US20140297316A1 (en) Method And Apparatus For Adaptive Prefetching Of Medical Data
CN105117489B (zh) 一种数据库管理方法、装置及电子设备
CN107193754B (zh) 进行数据存储用于搜索的方法及设备
CN111274351A (zh) 自动调整用户优先级的方法、装置、电子设备及存储介质
CN114328632A (zh) 基于位图的用户数据分析方法、装置及计算机设备
WO2017138549A1 (ja) 情報処理装置、情報処理方法、及び、記録媒体
CN106055640A (zh) 缓存的管理方法及系统
US10726013B2 (en) Information processing device, information processing method, and recording medium
Rayner et al. Relating the Friedman test adjusted for ties, the Cochran–Mantel–Haenszel mean score test and the ANOVA F test
CN109783745B (zh) 对页面进行个性化排版的方法、装置和计算机设备
JP6496025B2 (ja) 文書処理システム及び文書処理方法
CN117270729A (zh) 基于分页器的用于显示内容概况的方法及装置
JP2018173884A (ja) 情報提供プログラム、情報提供方法、及び、情報提供装置
JP6891342B2 (ja) Poi情報更新装置
CN110188622B (zh) 一种文字定位方法、装置及电子设备
CN110602737B (zh) 区域性拆迁识别方法、装置、计算机设备及存储介质
JP2017182767A (ja) 感情伝搬装置、感情伝搬方法、及びプログラム
US10545961B2 (en) Data processing method, apparatus and program for processing data identified in variable range

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180725

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210326

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210406

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210419

R150 Certificate of patent or registration of utility model

Ref document number: 6881322

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150