JPWO2015016133A1 - 情報管理装置及び情報管理方法 - Google Patents

情報管理装置及び情報管理方法 Download PDF

Info

Publication number
JPWO2015016133A1
JPWO2015016133A1 JP2015529543A JP2015529543A JPWO2015016133A1 JP WO2015016133 A1 JPWO2015016133 A1 JP WO2015016133A1 JP 2015529543 A JP2015529543 A JP 2015529543A JP 2015529543 A JP2015529543 A JP 2015529543A JP WO2015016133 A1 JPWO2015016133 A1 JP WO2015016133A1
Authority
JP
Japan
Prior art keywords
document data
field
unit
information management
management apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015529543A
Other languages
English (en)
Inventor
靖 岡野
靖 岡野
慎吾 折原
慎吾 折原
佐藤 徹
徹 佐藤
浩志 朝倉
浩志 朝倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2015016133A1 publication Critical patent/JPWO2015016133A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

情報管理装置(10)では、ネットワーク上における複数の文書データを収集する。続いて、情報管理装置(10)では、収集された各文書データに含まれる単語を用いて、各文書データを所定の分野ごとに分類し、該分野に対応するタグ情報を文書データごとに付与する。そして、情報管理装置(10)では、検索対象とする文書データの分野の指定を受け付ける。続いて、情報管理装置(10)では、受け付けられた分野に対応するタグ情報が付与された文書データを検索する。

Description

本発明は、情報管理装置及び情報管理方法に関する。
従来、インターネット上における不特定多数の文書を対象とし、特定の単語(キーワード)に関連する文書データを検索する手段として、様々なサーチエンジンが提供されている。例えば、サーチエンジンでは、キーワードの入力を受け付けることで、キーワードに関連する文書データを検索し、該文書データを出力する。
このようにサーチエンジンで検索された文書データから主要コンテンツのみを自動で抽出する技術が知られている(例えば、特許文献1参照)。また、検索対象となるインターネット上の複数の文書データを、類似する内容同士に分類する技術が知られている(例えば、特許文献2参照)。
特開2010−117941号公報 特許第4125951号
しかしながら、従来の技術では、利用者が望むジャンルの文書データが全体の文書データの量に比べて少ない場合には、適切に文書データを検索できない場合があるという問題があった。例えば、セキュリティに関する記事のように、もともと話題が少ない記事を検索しようとした場合に、類似する記事や関連する記事を適切に検索することが困難であった。
そこで、この発明は、利用者が望むジャンルの文書データが全体の文書データの量に比べて少ない場合であっても、適切に文書データを検索することを目的とする。
上述した課題を解決し、目的を達成するため、情報管理装置は、ネットワーク上における複数の文書データを収集する収集部と、前記収集部によって収集された各文書データに含まれる単語を用いて、前記各文書データを所定の分野ごとに分類し、該分野に対応するタグ情報を文書データごとに付与する付与部と、検索対象とする文書データの分野の指定を受け付ける受付部と、前記受付部によって受け付けられた分野に対応するタグ情報が付与された文書データを検索する検索部と、を有することを特徴とする。
また、情報管理方法は、情報管理装置によって実行される情報管理方法であって、ネットワーク上における複数の文書データを収集する収集工程と、前記収集工程によって収集された各文書データに含まれる単語を用いて、前記各文書データを所定の分野ごとに分類し、該分野に対応するタグ情報を文書データごとに付与する付与工程と、検索対象とする文書データの分野の指定を受け付ける受付工程と、前記受付工程によって受け付けられた分野に対応するタグ情報が付与された文書データを検索する検索工程と、を含んだことを特徴とする。
本願に開示する情報管理装置及び情報管理方法は、利用者が望むジャンルの文書データが全体の文書データの量に比べて少ない場合であっても、例えば、検索漏れや関係のない文書データの混入を減らし、適切に文書データを検索することが可能である。
図1は、第一の実施形態に係る情報管理装置の構成の一例を示す図である。 図2は、第一の実施形態に係る文書データ記憶部によって記憶される情報の一例を示す図である。 図3は、第一の実施形態に係る情報管理装置において、収集した記事にタグを付与し、タグに基づく検索を行う一連の処理について説明する図である。 図4は、第一の実施形態に係る情報管理装置におけるタグ付与処理の流れを説明するためのフローチャートである。 図5は、第一の実施形態に係る情報管理装置における情報検索処理の流れを説明するためのフローチャートである。 図6は、第二の実施形態に係る情報管理装置の構成の一例を示す図である。 図7は、第二の実施形態に係る分野別単語リスト記憶部によって記憶される情報の一例を示す図である。 図8は、第二の実施形態に係る情報管理装置において、分野別単語リストを参照して記事にタグを付与し、タグに基づく検索を行う一連の処理について説明する図である。 図9は、第二の実施形態に係る情報管理装置におけるタグ付与処理の流れを説明するためのフローチャートである。 図10は、第三の実施形態に係る情報管理装置において、記事にタグを付与し、キーワードに関連する記事の検索を行う一連の処理について説明する図である。 図11は、第三の実施形態に係る情報管理装置における情報検索処理の流れを説明するためのフローチャートである。 図12は、情報管理プログラムを実行するコンピュータを示す図である。
以下に添付図面を参照して、この発明に係る情報管理装置及び情報管理方法の実施形態を詳細に説明する。なお、この実施形態によりこの発明が限定されるものではない。
[第一の実施形態]
以下の実施形態では、第一の実施形態に係る情報管理装置及び情報管理方法による処理の流れを順に説明し、最後に第一の実施形態による効果を説明する。
[情報管理装置の構成]
図1に示した情報管理装置10の構成を説明する。図1は、第一の実施形態に係る情報管理装置10の構成を説明するための図である。図1に示すように、情報管理装置10は、通信処理部11、機能部12、記憶部13および制御部14を有する。また、情報管理装置10は、インターネットに接続されている。
通信処理部11は、インターネットにおける装置との間でやり取りする各種情報に関する通信を制御する。例えば、通信処理部11は、インターネットにおけるサーバに対して記事等を含む文書データを要求し、文書データを受信する。
記憶部13は、図1に示すように、文書データ記憶部13aを有する。記憶部13は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置などである。
文書データ記憶部13aは、インターネット上のニュースサイト、BBS(Bulletin Board System)、Twitter(登録商標)などから収集された記事や投稿の文書データを記憶する。また、文書データ記憶部13aは、文書データに対応付けて、該文書データのジャンル(分野)を示すタグ情報を記憶する。なお、文書データ記憶部13aは、一般のデータベース(MySQLやPostgreSQL等)を用いてもよいし、表形式やテキスト形式での格納など、その蓄積方法の種類は問わない。
例えば、文書データ記憶部13aは、図2に例示するように、文書データの内容を示す「記事本文」と、記事本文のジャンルを示す「タグ」とを対応付けて記憶する。ここで、「タグ」は、一つの記事に対して、一つであってもよいし、複数であってもよい。具体的な例を挙げて説明すると、図2に示すように、記事本文「スマホに充電機器経由でウィルス感染する脆弱性が発見される」と、タグ「セキュリティ、携帯」とが対応付けて記憶されている。
図1の説明に戻って、機能部12は、収集部12a、変換部12b、付与部12c、受付部12dおよび検索部12eを有する。ここで、機能部12は、各処理を受け持つところであり、実際にはソフトウェア(の1コンポーネント)またはミドルウェアとして実現される。また、制御部14は、通信処理部11、機能部12、記憶部13の動作を制御し、情報管理装置10の動作を司るもので、実際にはCPU(Central Processing Unit)やMPU(Micro Processing Unit)等の集積回路等で実現される。
収集部12aは、ネットワーク上における複数の文書データを収集する。例えば、収集部12aは、インターネット上のニュースサイト、BBS、Twitterなどから記事を収集する。ここで、ニュースサイト、BBSについては、収集部12aは、事前にユーザが定めた収集先リストに基づいて、サイトへアクセスし、記事を収集する。
また、Twitterについては、収集部12aは、例えばStreaming APIやSearch APIを用いて、全Tweetから一部を取得したり、ユーザが事前に定めたキーワードやTwitterユーザIDに基づき、条件に当てはまるTweetを取得する。
さらに、収集部12aは、収集した記事を、分析に活用できるように整形する。具体的には、ニュースやBBSについては、不必要なHTMLタグやスクリプト、あるいは記事と関係ない広告を取り除いたりする。
変換部12bは、収集部12aによって収集された各文書データに含まれる単語に基づいて、該文書データを特徴ベクトルに変換する。具体的には、変換部12bは、収集した記事データについて、不要文字の除去および文字種の統一を行った後、記事データを機械学習エンジンにかけるための特徴ベクトル変換を行う。
ここで、変換部12bは、不要文字の除去として、例えば、記事データに対して、余計な空白や言語処理の障害となるURL等の削除を行う。また、例えば、変換部12bは、文字種の統一として、記事データに使用されている文字について、英大文字小文字やいわゆる半角全角の統一を行う。
また、変換部12bは、特徴ベクトルへの変換について、例えば、形態素解析によるもの、n−gramによるもの、区切り文字によるもの、のいずれかを利用することができる。変換部12bは、形態素解析によるものを利用した場合には、記事データを品詞によって分割し、それらを特徴ベクトルへ変換する。このような形態素解析には、例えばオープンソースのMecab等のライブラリを利用することができる。例えば、変換部12bは、記事データが「Twitterの使い方が、まだ、よくわからん。」という文章だった場合に、形態素解析を利用し、「Twitter/の/使い方/が/、/まだ/、/よく/わから/ん/。」と分割する。
また、変換部12bは、n−gramによるものを利用した場合には、記事データを先頭から1文字ずつずらしながらn文字の組を作り、それらを特徴ベクトルへ変換する。例えば、変換部12bは、記事データが「Twitterの使い方が、まだ、よくわからん。」という文章だった場合に、n−gram(n=3)を利用し、「Twi/wit/itt/tte/ter/erの/rの使/の使い/・・・」と分割する。
また、変換部12bは、区切り文字によるものを利用した場合には、記事データを別途定めた区切り文字(空白やカンマ”,”など)によって分割し、それらを特徴ベクトルへ変換する。一般に、形態素解析は日本語の文章に、空白区切りは英語に適用されることが多い。例えば、変換部12bは、記事データが「Twitterの使い方が、まだ、よくわからん。」という文章で区切り文字にカンマ“,”を指定した場合に、区切り文字を利用し、「Twitterの使い方が/まだ/よくわからん。」と分割する。
そして、変換部12bは、このようにして要素に分割された記事データを特徴ベクトルに変換する。特徴ベクトルの変換手法としては、例えば、各要素の出現回数をそのまま特徴ベクトルとする方式、回数によらず出現するか否かを1または0に対応させる方式、文章全体の出現回数を考慮した重みづけを行う方式などがある。これらは、使用する機械学習ライブラリの具備する手法であれば、どのようなものを用いても構わない。
付与部12cは、収集部12aによって収集された各文書データに含まれる単語を用いて、各文書データを所定の分野ごとに分類し、該分野に対応するタグ情報を文書データごとに付与する。具体的には、付与部12cは、変換部12bによって変換された特徴ベクトルを用いて、各文書データを所定の分野ごとに分類し、該分野に対応するタグ情報を文書データごとに付与する。
例えば、付与部12cは、変換部12bによって変換された特徴ベクトルを機械学習のエンジンに与え、事前に与えられたカテゴリに分類する。ここで事前に与えられたカテゴリとしては、例えば、「セキュリティ」、「プログラミング」、「携帯」などのユーザにとって関心がある分野とする。ここで使用する機械学習のエンジンは種類を問わないが、例えばオープンソースのJubatus等を用いることができる。そして、付与部12cは、記事データに対して、機械学習で分類されたカテゴリのタグを付与し、記事とタグを合わせて文書データ記憶部13aに格納する。
受付部12dは、検索対象とする文書データの分野の指定を受け付ける。具体的には、受付部12dは、検索対象となる文書データの分野の候補を表示し、表示した分野の候補のなかから分野の指定を受け付ける。
例えば、受付部12dは、検索を開始する検索指示を受け付けると、検索対象となる文書データの分野の候補として、例えば、「セキュリティ」、「プログラミング」、「携帯」などの分野を示す単語を表示するとともに、各単語の近傍にチェックボックスを表示する。そして、受付部12dは、チェックボックスにチェック記号が入れられた単語を、指定された分野として受け付ける。なお、受付部12dが指定を受け付ける分野の数は1つでもよいし、複数であってもよい。
検索部12eは、受付部12dによって受け付けられた分野に対応するタグ情報が付与された文書データを検索する。例えば、検索部12eは、分野「セキュリティ」について検索の指示を受け付けた場合には、「セキュリティ」のタグが付与された文書データを文書データ記憶部13aから検索する。そして、検索部12eは、検索した文書データを表示する。
なお、検索部12eは、複数の分野について検索の指示を受け付けた場合には、全ての分野に対応するタグが付与された文書データを文書データ記憶部13aから検索してもよいし、複数の分野のうちのいずれかの分野に対応するタグが付与された文書データを全て検索するようにしてもよい。
ここで、図3を用いて、情報管理装置10が、収集した記事にタグを付与し、タグに基づく検索を行う一連の処理について説明する。図3は、第一の実施形態に係る情報管理装置において、収集した記事にタグを付与し、タグに基づく検索を行う一連の処理について説明する図である。図3に示すように、情報管理装置10の収集部12aは、インターネット上のニュースサイト、Twitter、BBS等から記事等の情報を収集する(図3の(1)参照)。
そして、変換部12bが収集部12aによって収集された各記事に含まれる単語に基づいて、該記事を特徴ベクトルに変換する。その後、付与部12cは、変換部12bによって変換された特徴ベクトルを機械学習のエンジンに与え、事前に与えられたカテゴリに分類し、カテゴリに対応するタグを記事等に付与する(図3の(2)参照)。そして、検索部12eは、ユーザに指定された分野に対応するタグ情報が付与された文書データを検索する(図3の(3)参照)。
[情報管理装置による処理]
次に、図4、5を用いて、第一の実施形態に係る情報管理装置10による処理を説明する。図4は、第一の実施形態に係る情報管理装置におけるタグ付与処理の流れを説明するためのフローチャートである。図5は、第一の実施形態に係る情報管理装置における情報検索処理の流れを説明するためのフローチャートである。
まず、図4を用いて、第一の実施形態に係る情報管理装置10におけるタグ付与処理の流れを説明する。図4に示すように、情報管理装置10の収集部12aは、インターネット上のWebサイト(ニュースサイト、BBS、Twitter、ブログ等)から記事を収集する(ステップS101)。
そして、変換部12bは、収集した記事について、不要文字の除去を行う(ステップS102)。例えば、変換部12bは、不要文字の除去として、記事データに対して、余計な空白や言語処理の障害となるURL等の削除を行う。
続いて、変換部12bは、収集した記事について、文字種の統一を行う(ステップS103)。例えば、変換部12bは、文字種の統一として、記事データに使用されている文字について、英大文字小文字やいわゆる半角全角の統一を行う。
変換部12bは、収集した記事について、不要文字の除去および文字種の統一を行った後、機械学習エンジンにかけるための特徴ベクトル変換を行う(ステップS104)。例えば、変換部12bは、特徴ベクトルへの変換について、形態素解析によるもの、n−gramによるもの、区切り文字によるもの、のいずれかを利用して記事を分割し、特徴ベクトルの変換を行う。
続いて、付与部12cは、変換部12bによって変換された特徴ベクトルを機械学習のエンジンに与え、事前に与えられたカテゴリに分類する(ステップS105)。そして、付与部12cは、記事データに対して、機械学習で分類されたカテゴリのタグを付与する(ステップS106)。その後、付与部12cは、収集した記事と付与されたカテゴリを文書データ記憶部13aに格納する(ステップS107)。
次に、図5を用いて、第一の実施形態に係る情報管理装置10における情報検索処理の流れを説明する。図5に示すように、情報管理装置10の受付部12dは、検索を開始する検索指示を受け付けると(ステップS201肯定)、検索対象となり得る複数の分野の候補を表示する(ステップS202)。
例えば、受付部12dは、検索を開始する検索指示を受け付けると、検索対象となる文書データの分野の候補として、例えば、「セキュリティ」、「プログラミング」、「携帯」などの分野を示す単語を表示するとともに、各単語の近傍にチェックボックスを表示する。そして、受付部12dは、チェックボックスにチェック記号が入れられた単語を、指定された分野として受け付ける。なお、受付部12dが指定を受け付ける分野の数は1つでもよいし、複数であってもよい。
そして、受付部12dは、表示した分野の候補のなかから分野の指定を受け付けた否かを判定する(ステップS203)。この結果、受付部12dが表示した分野の候補のなかから分野の指定を受け付けたと判定した場合に(ステップS203肯定)、選択された分野に対応するタグを有する記事を検索する(ステップS204)。例えば、検索部12eは、分野「セキュリティ」について検索の指示を受け付けた場合には、「セキュリティ」のタグが付与された文書データを文書データ記憶部13aから検索する。そして、検索部12eは、検索された記事を出力する(ステップS205)。
[第一の実施形態の効果]
上述してきたように、第一の実施形態にかかる情報管理装置10では、ネットワーク上における複数の文書データを収集し、収集された各文書データに含まれる単語を用いて、前記各文書データを所定の分野ごとに分類し、該分野に対応するタグ情報を文書データごとに付与する。そして、情報管理装置10では、検索対象とする文書データの分野の指定を受け付け、受け付けられた分野に対応するタグ情報が付与された文書データを検索する。利用者が望むジャンルの文書データが全体の文書データの量に比べて少ない場合であっても、適切に文書データを検索することが可能である。
例えば、情報管理装置10では、インターネット上のWebサイト(ニュース、Twitter、BBS、ブログ等)から記事を収集し、機械学習によってこれらの記事の分類・タグ付けを行い、記事とタグを格納する。そして、記事に付与されたタグを基に、利用者が望む記事を検索することができるため、利用者が望むジャンルの記事が記事全体の量に比べて少ない場合でも、タグ情報を基に、利用者が望む記事を多くの記事から探し出すことができる。
また、情報管理装置10では、収集された各文書データに含まれる単語に基づいて、該文書データを特徴ベクトルに変換する。そして、情報管理装置10では、変換された特徴ベクトルを用いて、各文書データを所定の分野ごとに分類し、該分野に対応するタグ情報を文書データごとに付与する。このため、文書データに対して適切にタグを付与することが可能である。
また、情報管理装置10では、検索対象となる文書データの分野の候補を表示し、表示した分野の候補のなかから分野の指定を受け付ける。このため、ユーザが検索キーワードを知らないような場合、例えば新しい話題に関する記事であっても、検索を行うことが可能である。
[第二の実施形態]
第二の実施形態において、情報管理装置が、所定の分野に関する単語リストを記憶し、単語リストを参照して、分野に対応するタグ情報を文書データごとに付与するようにしてもよい。そこで、以下では、図6〜図9を用いて、所定の分野に関する単語リストを記憶し、単語リストを参照して、各文書データから単語を抽出し、該単語に基づいて、該文書データを特徴ベクトルに変換する場合について説明する。なお、第一の実施形態と共通する構成および処理については、説明を省略する。
まず、図6を用いて、第二の実施の形態に係る情報管理装置10Aの構成を説明する。図6は、第二の実施形態に係る情報管理装置の構成の一例を示す図である。第二の実施の形態に係る情報管理装置10Aは、図1に示した第一の実施の形態に係る情報管理装置10と比較して、分野別単語リスト記憶部13bを新たに備える点が相違する。
分野別単語リスト記憶部13bは、所定の分野に関する分野別単語リストを記憶する。例えば、分野別単語リスト記憶部13bは、図7に例示するように、分野に対応付けて、各分野に関する単語リストを記憶する。図7の例を挙げて説明すると、例えば、分野別単語リスト記憶部13bは、分野「セキュリティ」に対応付けて単語「脆弱性、ウィルス・・・」を記憶する。図7は、第二の実施形態に係る分野別単語リスト記憶部13bによって記憶される情報の一例を示す図である。ここでは、分野別単語リスト記憶部13bは、ユーザが望むジャンルの単語を分野別単語リストとして記憶しているものとする。
変換部12bは、分野別単語リスト記憶部13bに記憶された単語リストを参照して、各文書データから単語を抽出し、該単語に基づいて、該文書データを特徴ベクトルに変換する。
例えば、変換部12bは、収集した記事データについて、不要文字の除去および文字種の統一を行った後、分野別単語抽出処理として、あらかじめ与えられた分野別単語リストを基に、各分野のリストに含まれる単語を記事本文から抽出し、抽出した結果である単語を特徴ベクトルに変換する。
具体的な例を挙げて説明すると、変換部12bは、記事本文が「スマホに充電機器経由でウィルス感染する脆弱性が発見される」である場合に、図7に例示した分野別単語リストを参照して、リストに含まれる単語を記事本文から抽出処理を行うと、その結果として、分野「セキュリティ」の単語「ウィルス」、「脆弱性」と、分野「携帯」の単語「スマホ」を抽出することとなる。そして、変換部12bは、「ウィルス」、「脆弱性」および「スマホ」を特徴ベクトルに変換する。
その後、第一の実施形態と同様に、付与部12cは、変換部12bによって変換された特徴ベクトルを機械学習のエンジンに与え、事前に与えられたカテゴリに分類する。そして、付与部12cは、記事データに対して、機械学習で分類されたカテゴリにタグを付与し、記事とタグを合わせて文書データ記憶部13aに格納する。
なお、上記の処理において、特徴ベクトルに変換する処理を省略し、抽出した単語に対応する分野をタグとして記事データに付与してもよい。つまり、上記の例を用いて説明すると、付与部12cは、例えば、リストに含まれる単語を記事本文から抽出処理が行われた結果、「ウィルス」、「脆弱性」および「スマホ」が抽出された場合には、ウィルスおよび脆弱性に対応する「セキュリティ」と、スマホに対応する「携帯」とを、タグとして付与してもよいし、単語数が最も多い単語に対応する「セキュリティ」のみをタグとして付与してもよい。
ここで、図8を用いて、情報管理装置10Aが、収集した記事にタグを付与し、タグに基づく検索を行う一連の処理について説明する。図8は、第二の実施形態に係る情報管理装置において、分野別単語リストを参照して記事にタグを付与し、タグに基づく検索を行う一連の処理について説明する図である。図8に示すように、情報管理装置10Aの収集部12aは、インターネット上のニュースサイト、Twitter、BBS等から記事等の情報を収集する(図8の(1)参照)。
そして、変換部12bが分野別単語リスト記憶部13bに記憶された単語リストを参照して、各文書データから単語を抽出し、該単語に基づいて、該文書データを特徴ベクトルに変換する。その後、付与部12cは、変換部12bによって変換された特徴ベクトルを機械学習のエンジンに与え、事前に与えられたカテゴリに分類し、カテゴリに対応するタグを記事等に付与する(図8の(2)参照)。そして、検索部12eは、ユーザに指定された分野に対応するタグ情報が付与された文書データを検索する(図8の(3)参照)。
次に、図9を用いて、第二の実施形態に係る情報管理装置10Aによる処理を説明する。図9は、第二の実施形態に係る情報管理装置におけるタグ付与処理の流れを説明するためのフローチャートである。
図9に示すように、情報管理装置10Aの収集部12aは、インターネット上のWebサイト(ニュースサイト、BBS、Twitter、ブログ等)から記事を収集する(ステップS301)。そして、変換部12bは、収集した記事について、不要文字の除去を行う(ステップS302)。例えば、変換部12bは、不要文字の除去として、記事データに対して、余計な空白や言語処理の障害となるURL等の削除を行う。
続いて、変換部12bは、収集した記事について、文字種の統一を行う(ステップS303)。例えば、変換部12bは、文字種の統一として、記事データに使用されている文字について、英大文字小文字やいわゆる半角全角の統一を行う。
変換部12bは、分野別単語リストを参照し、各分野のリストに含まれる単語を記事本文から抽出する(ステップS304)。そして、機械学習エンジンにかけるための特徴ベクトル変換を行う(ステップS305)。例えば、変換部12bは、特徴ベクトルへの変換について、抽出した単語をそのまま用いるもの、形態素解析によるもの、n−gramによるもの、区切り文字によるもの、のいずれかを利用して記事を分割し、特徴ベクトルの変換を行う。
続いて、付与部12cは、変換部12bによって変換された特徴ベクトルを機械学習のエンジンに与え、事前に与えられたカテゴリに分類する(ステップS306)。そして、付与部12cは、記事データに対して、機械学習で分類されたカテゴリのタグを付与する(ステップS307)。その後、付与部12cは、収集した記事と付与されたカテゴリを文書データ記憶部13aに格納する(ステップS308)。
このように、第二の実施形態に係る情報管理装置10Aでは、所定の分野に関する単語リストを記憶する。そして、情報管理装置10Aは、単語リストを参照して、各文書データから単語を抽出し、該単語に基づいて、該文書データを特徴ベクトルに変換する。このため、特徴ベクトルへの変換の際に、単語リストの単語を使用することで、より分野に特化した分類が可能である。
[第三の実施形態]
第三の実施形態では、情報管理装置が、検索対象とする文書データの分野の指定として、分野に関するキーワードの入力を受け付け、受け付けられたキーワードに対応するタグ情報が付与された文書データを検索するようにしてもよい。そこで、以下では、図10および図11を用いて、キーワードに関連する記事の検索を行い、類似した記事を出力する場合について説明する。なお、第一の実施形態と共通する構成および処理については、説明を省略する。
まず、図10を用いて、第三の実施形態に係る情報管理装置10Bにおいて、記事にタグを付与し、キーワードに関連する記事の検索を行う一連の処理について説明する。図10は、第三の実施形態に係る情報管理装置において、記事にタグを付与し、キーワードに関連する記事の検索を行う一連の処理について説明する図である。
図10に示すように、情報管理装置10Bの収集部12aは、インターネット上のニュースサイト、Twitter、BBS等から記事等の情報を収集する(図10の(1)参照)。
そして、付与部12cは、変換部12bによって変換された特徴ベクトルを機械学習のエンジンに与え、事前に与えられたカテゴリに分類し、カテゴリに対応するタグを記事等に付与する(図10の(2)参照)。そして、受付部12dは、ユーザからキーワードの入力を受け付ける(図10の(3)参照)。
続いて、検索部12eは、キーワードに対応するタグが付与された記事を検索する(図10の(4)参照)。例えば、キーワードとして「脆弱性」が付与された場合には、「脆弱性」に対応するタグ「セキュリティ」が付与された記事を検索する。そして、検索部12eは、検索した結果を推薦結果として、キーワードに関連する記事をユーザへ出力する(図10の(5)参照)。
次に、図11を用いて、第三の実施形態に係る情報管理装置10Bによる処理を説明する。図11は、第三の実施形態に係る情報管理装置における情報検索処理の流れを説明するためのフローチャートである。
図11に示すように、情報管理装置10Bの受付部12dは、検索を開始する検索指示を受け付けると(ステップS401肯定)、キーワードの入力を受け付けたか否かを判定する(ステップS402)。そして、受付部12dは、キーワードの入力を受け付け場合には(ステップS402肯定)、キーワードに対応するタグを有する記事を検索する(ステップS403)。例えば、検索部12eは、キーワードとして「脆弱性」が付与された場合には、「脆弱性」に対応するタグ「セキュリティ」が付与された記事を検索する。そして、検索部12eは、検索された記事を出力する(ステップS404)。
このように、第三の実施形態に係る情報管理装置10Bでは、検索対象とする文書データの分野の指定として、分野に関するキーワードの入力を受け付け、受け付けられたキーワードに対応するタグ情報が付与された文書データを検索する。このため、情報管理装置10Bでは、ユーザが入力したキーワードを基に、適切に文書データを検索することが可能である。
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、変換部12bと付与部12cとを統合してもよい。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
また、上記実施形態において説明した情報管理装置10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。例えば、第一の実施形態に係る情報管理装置10が実行する処理をコンピュータが実行可能な言語で記述した情報管理プログラムを作成することもできる。この場合、コンピュータが情報管理プログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかる情報管理プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録された情報管理プログラムをコンピュータに読み込ませて実行することにより上記第一の実施形態と同様の処理を実現してもよい。以下に、図1に示した情報管理装置10と同様の機能を実現する情報管理プログラムを実行するコンピュータの一例を説明する。
図12は、情報管理プログラムを実行するコンピュータ1000を示す図である。図12に例示するように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有し、これらの各部はバス1080によって接続される。
メモリ1010は、図12に例示するように、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、図12に例示するように、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、図12に例示するように、ディスクドライブ1041に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1041に挿入される。シリアルポートインタフェース1050は、図12に例示するように、例えばマウス1051、キーボード1052に接続される。ビデオアダプタ1060は、図12に例示するように、例えばディスプレイ1061に接続される。
ここで、図12に例示するように、ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記の情報管理プログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュールとして、例えばハードディスクドライブ1031に記憶される。
また、上記実施形態で説明した各種データは、プログラムデータとして、例えばメモリ1010やハードディスクドライブ1031に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出し、各種処理手順を実行する。
なお、情報管理プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してCPU1020によって読み出されてもよい。あるいは、情報管理プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
10、10A、10B 情報管理装置
11 通信処理部
12 機能部
12a 収集部
12b 変換部
12c 付与部
12d 受付部
12e 検索部
13 記憶部
13a 文書データ記憶部
13b 分野別単語リスト記憶部
14 制御部

Claims (6)

  1. ネットワーク上における複数の文書データを収集する収集部と、
    前記収集部によって収集された各文書データに含まれる単語を用いて、前記各文書データを所定の分野ごとに分類し、該分野に対応するタグ情報を文書データごとに付与する付与部と、
    検索対象とする文書データの分野の指定を受け付ける受付部と、
    前記受付部によって受け付けられた分野に対応するタグ情報が付与された文書データを検索する検索部と、
    を有することを特徴とする情報管理装置。
  2. 前記収集部によって収集された各文書データに含まれる単語に基づいて、該文書データを特徴ベクトルに変換する変換部をさらに有し、
    前記付与部は、前記変換部によって変換された特徴ベクトルを用いて、前記各文書データを所定の分野ごとに分類し、該分野に対応するタグ情報を文書データごとに付与することを特徴とする請求項1に記載の情報管理装置。
  3. 所定の分野に関する単語リストを記憶する記憶部をさらに有し、
    前記変換部は、前記記憶部に記憶された単語リストを参照して、前記各文書データから単語を抽出し、該単語に基づいて、該文書データを特徴ベクトルに変換することを特徴とする請求項2に記載の情報管理装置。
  4. 前記受付部は、検索対象となる文書データの分野の候補を表示し、表示した分野の候補のなかから分野の指定を受け付けることを特徴とする請求項1〜3のいずれか一つに記載の情報管理装置。
  5. 前記受付部は、検索対象とする文書データの分野の指定として、分野に関するキーワードの入力を受け付け、
    前記検索部は、前記受付部によって受け付けられたキーワードに対応するタグ情報が付与された文書データを検索することを特徴とする請求項1〜3のいずれか一つに記載の情報管理装置。
  6. 情報管理装置によって実行される情報管理方法であって、
    ネットワーク上における複数の文書データを収集する収集工程と、
    前記収集工程によって収集された各文書データに含まれる単語を用いて、前記各文書データを所定の分野ごとに分類し、該分野に対応するタグ情報を文書データごとに付与する付与工程と、
    検索対象とする文書データの分野の指定を受け付ける受付工程と、
    前記受付工程によって受け付けられた分野に対応するタグ情報が付与された文書データを検索する検索工程と、
    を含んだことを特徴とする情報管理方法。
JP2015529543A 2013-07-30 2014-07-24 情報管理装置及び情報管理方法 Pending JPWO2015016133A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013158200 2013-07-30
JP2013158200 2013-07-30
PCT/JP2014/069571 WO2015016133A1 (ja) 2013-07-30 2014-07-24 情報管理装置及び情報管理方法

Publications (1)

Publication Number Publication Date
JPWO2015016133A1 true JPWO2015016133A1 (ja) 2017-03-02

Family

ID=52431669

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015529543A Pending JPWO2015016133A1 (ja) 2013-07-30 2014-07-24 情報管理装置及び情報管理方法

Country Status (5)

Country Link
US (1) US20160170983A1 (ja)
EP (1) EP3012748A4 (ja)
JP (1) JPWO2015016133A1 (ja)
CN (1) CN105408896A (ja)
WO (1) WO2015016133A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6235082B1 (ja) * 2016-07-13 2017-11-22 ヤフー株式会社 データ分類装置、データ分類方法、およびプログラム
US11492908B2 (en) 2020-01-22 2022-11-08 General Electric Company Turbine rotor blade root with hollow mount with lattice support structure by additive manufacture
US11220916B2 (en) 2020-01-22 2022-01-11 General Electric Company Turbine rotor blade with platform with non-linear cooling passages by additive manufacture

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10143537A (ja) * 1996-11-12 1998-05-29 Ricoh Co Ltd 文書検索処理方法
JP2008217157A (ja) * 2007-02-28 2008-09-18 Nippon Telegr & Teleph Corp <Ntt> 操作履歴を利用した自動情報整理装置、方法、およびプログラム
JP2008276344A (ja) * 2007-04-26 2008-11-13 Just Syst Corp 多重トピック分類装置、多重トピック分類方法、および多重トピック分類プログラム
JP2009259248A (ja) * 2008-04-11 2009-11-05 Nhn Corp ウェブページに含まれるイメージに対してタグ付けを実行し、その結果を利用してウェブ検索サービスを提供するための方法、装置及びコンピュータ読み取り可能な記録媒体
JP2010026923A (ja) * 2008-07-23 2010-02-04 Omron Corp 文書分類方法、文書分類装置、文書分類プログラム、および、コンピュータ読取り可能記録媒体
JP2012164018A (ja) * 2011-02-03 2012-08-30 Nifty Corp タグ推薦装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6505150B2 (en) * 1997-07-02 2003-01-07 Xerox Corporation Article and method of automatically filtering information retrieval results using test genre
US6711585B1 (en) * 1999-06-15 2004-03-23 Kanisa Inc. System and method for implementing a knowledge management system
JP4363868B2 (ja) * 2002-08-23 2009-11-11 株式会社東芝 検索キーワード分析プログラム及びシステム並びに方法
JP4125951B2 (ja) 2002-12-25 2008-07-30 日本電信電話株式会社 テキスト自動分類方法及び装置並びにプログラム及び記録媒体
JP4581520B2 (ja) * 2004-07-09 2010-11-17 富士ゼロックス株式会社 ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置
US7761078B2 (en) * 2006-07-28 2010-07-20 Qualcomm Incorporated Dual inductor circuit for multi-band wireless communication device
US7711668B2 (en) * 2007-02-26 2010-05-04 Siemens Corporation Online document clustering using TFIDF and predefined time windows
JP5079019B2 (ja) * 2008-01-08 2012-11-21 三菱電機株式会社 情報フィルタリングシステム、情報フィルタリング方法および情報フィルタリングプログラム
EP2260373A4 (en) * 2008-02-25 2016-08-03 Atigeo Llc DETERMINING RELEVANT INFORMATION FOR AREAS OF INTEREST
JP5317638B2 (ja) 2008-11-13 2013-10-16 日本電信電話株式会社 Web文書主要コンテンツ抽出装置及びプログラム
US8566349B2 (en) * 2009-09-28 2013-10-22 Xerox Corporation Handwritten document categorizer and method of training
DE112010004087T5 (de) * 2009-12-09 2012-10-18 International Business Machines Corporation Verfahren, Computersystem und Computerprogramm zum Durchsuchen von Dokumentdaten unter Verwendung eines Suchbegriffs
US8725739B2 (en) * 2010-11-01 2014-05-13 Evri, Inc. Category-based content recommendation
WO2012095971A1 (ja) * 2011-01-13 2012-07-19 三菱電機株式会社 分類ルール生成装置、分類ルール生成方法、分類ルール生成プログラム及び記録媒体
CN102737057B (zh) * 2011-04-14 2015-04-01 阿里巴巴集团控股有限公司 一种商品类目信息的确定方法及装置
US9292505B1 (en) * 2012-06-12 2016-03-22 Firstrain, Inc. Graphical user interface for recurring searches
US9235812B2 (en) * 2012-12-04 2016-01-12 Msc Intellectual Properties B.V. System and method for automatic document classification in ediscovery, compliance and legacy information clean-up

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10143537A (ja) * 1996-11-12 1998-05-29 Ricoh Co Ltd 文書検索処理方法
JP2008217157A (ja) * 2007-02-28 2008-09-18 Nippon Telegr & Teleph Corp <Ntt> 操作履歴を利用した自動情報整理装置、方法、およびプログラム
JP2008276344A (ja) * 2007-04-26 2008-11-13 Just Syst Corp 多重トピック分類装置、多重トピック分類方法、および多重トピック分類プログラム
JP2009259248A (ja) * 2008-04-11 2009-11-05 Nhn Corp ウェブページに含まれるイメージに対してタグ付けを実行し、その結果を利用してウェブ検索サービスを提供するための方法、装置及びコンピュータ読み取り可能な記録媒体
JP2010026923A (ja) * 2008-07-23 2010-02-04 Omron Corp 文書分類方法、文書分類装置、文書分類プログラム、および、コンピュータ読取り可能記録媒体
JP2012164018A (ja) * 2011-02-03 2012-08-30 Nifty Corp タグ推薦装置

Also Published As

Publication number Publication date
WO2015016133A1 (ja) 2015-02-05
US20160170983A1 (en) 2016-06-16
CN105408896A (zh) 2016-03-16
EP3012748A1 (en) 2016-04-27
EP3012748A4 (en) 2017-05-10

Similar Documents

Publication Publication Date Title
US10268758B2 (en) Method and system of acquiring semantic information, keyword expansion and keyword search thereof
US9626622B2 (en) Training a question/answer system using answer keys based on forum content
US20150033116A1 (en) Systems, Methods, and Media for Generating Structured Documents
US10565520B2 (en) Feature extraction for machine learning
KR20170000329A (ko) 콘텍스트 기반 탭 관리를 위한 방법 및 전자 장치
US20160055845A1 (en) Generating training data for disambiguation
CN111512315A (zh) 文档元数据的按块提取
EP3683695A1 (en) Synonym dictionary creation device, synonym dictionary creation program, and synonym dictionary creation method
US10083398B2 (en) Framework for annotated-text search using indexed parallel fields
JP2016532210A (ja) サーチ方法、装置、設備および不揮発性計算機メモリ
US20120179709A1 (en) Apparatus, method and program product for searching document
WO2015016133A1 (ja) 情報管理装置及び情報管理方法
CN106462614B (zh) 信息分析系统、信息分析方法以及信息分析程序
US8856152B2 (en) Apparatus and method for visualizing data
CN108614821B (zh) 地质资料互联互查系统
JP2016045552A (ja) 特徴抽出プログラム、特徴抽出方法、および特徴抽出装置
CN107220249B (zh) 基于分类的全文搜索
US11106737B2 (en) Method and apparatus for providing search recommendation information
JP7119550B2 (ja) 2モードネットワークにおける検索結果の視覚的探索のためのシステム及び方法、プログラム、及びコンピュータ装置
US11150871B2 (en) Information density of documents
US20200097492A1 (en) System and method of creating index
CN107463570B (zh) 一种文献检索/分析方法和装置
US10909154B2 (en) Search system, search method and search program
JP6887002B2 (ja) 情報処理装置、サーバ装置、ユーザ端末、方法及びプログラム
JP5936987B2 (ja) 映像コンテンツ表示プログラム及び映像コンテンツ表示装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170228