WO2024047819A1

WO2024047819A1 - 抽出装置、情報抽出装置、抽出方法、および、抽出プログラム

Info

Publication number: WO2024047819A1
Application number: PCT/JP2022/032869
Authority: WO
Inventors: 和哉松尾; 肇能登; 篤深山
Original assignee: 日本電信電話株式会社
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2024-03-07

Abstract

抽出装置は、担当者が業務で利用するファイルを格納するフォルダの構成を示すフォルダパスを取得する。そして、抽出装置は、フォルダパスに示されるファイル名を業務の識別名として抽出する。また、抽出装置は、フォルダパスに示される各フォルダに格納されるファイル内のテキストを解析し、当該テキストに当該ファイルを格納するフォルダのフォルダ名があればそのフォルダ名を業務の識別名として抽出する。さらに、抽出装置は、ファイルのプロパティ情報から、当該ファイルの示す業務の担当者の識別名を抽出する。そして、抽出装置は、抽出した業務の識別名と当該業務の担当者の識別名との組み合わせのリストを出力する。

Description

抽出装置、情報抽出装置、抽出方法、および、抽出プログラム

　本発明は、担当者が担当する業務の識別名に関する、抽出装置、情報抽出装置、抽出方法、および、抽出プログラムに関する。

　従来、世界とサイバー空間とを結びつけるデジタルツインが、ICT技術の進展により実現され、注目されている。このデジタルツインを人間に適用し、人間の外見・内面・記憶をデジタル上で再現したヒトデジタルツイン（ヒトDT）が近年注目されている。

　例えば、ヒトDTが、本人の業務の代理をできるようになれば生産性を向上できる。
例１：ヒトDTが本人の代わりに上司／部下からの質問に対応する。
例２：ヒトDTが本人の代わりに他の人と議論して情報収集する。

　ヒトDTに、本人の業務の代理をさせるためには、本人（フィジカルツイン：PT）の業務に関する記憶をデジタル上で再現することが必要である。

　PTの業務を代理をする上で必要な情報は、PTが行う業務によって異なるため、業務そのものを識別できる情報の抽出が重要である。また、PTを代理する上で必要な情報は、PTしか知りえない可能性がある。そのため、PTからしか取得できないデータ（例えば、PTが作成した資料、PTが取得した資料、PTの発言、PTが取得した発言等）から情報を抽出する必要がある。

　ここで、業務を識別できる情報を抽出するため、ラベル付きの単語（例：「Person」のラベルを付与した人名、「Company」のラベルを付与した企業名等）の機械学習により自然言語処理モデルを構築し、構築したモデルを用いて入力されたテキストの特定の単語を推定することも考えられる。また、フォルダ名やファイル名から、人名やプロジェクト名を抽出する技術も提案されている（非特許文献１参照）。

Markus　Schroder,　et　al.,　A　Human-in-the-Loop　Approach　for　Personal　Knowledge　Graph　Construction　from　File　Names,［online］，［2022年8月15日検索］，インターネット＜URL：https://openreview.net/pdf?id=HgbGN3MHLZc＞

　しかし、業務の識別名は市中に学習データが存在しない場合が多い。そのため、上記の自然言語処理モデルを構築するためは、ラベルを付けた業務の識別名を学習データとして用意する必要がある。また、フォルダ名やファイル名から、人名やプロジェクト名を抽出する技術は、ノイズ（例えば、業務に関連のない単語）の除去や、特定の人物が担当する業務の情報のみの抽出には、人手での修正が繰り返し必要である。

　そこで、本発明は、前記した問題を解決し、PT（担当者）が担当する業務を識別するための情報を抽出する際の手間を軽減することを課題とする。

　前記した課題を解決するため、本発明は、担当者が業務で利用するファイルを格納するフォルダの構成を示すフォルダパスを取得する取得部と、前記フォルダに格納されるファイルからテキストを取得するテキスト取得部と、前記フォルダパスに示されるフォルダの構成に基づき、前記ファイルから取得されたテキストに、当該ファイルを格納するフォルダのフォルダ名または前記フォルダの先祖フォルダのフォルダ名があると判定した場合、前記フォルダ名を前記担当者が担当する業務の識別名として抽出し、出力する業務識別名抽出部とを備えることを特徴とする。

　本発明によれば、PT（担当者）が担当する業務を識別するための情報を抽出する際の手間を軽減することができる。

図１は、抽出装置の概要を説明するための図である。図２は、抽出装置の構成例を示す図である。図３は、図２に示す制御部の機能を説明するための図である。図４は、図２に示す業務識別名抽出部が実行する処理の例を説明するための図である。図５は、図２に示す業務識別名抽出部が実行する処理の例を説明するための図である。図６は、図２に示す担当者識別部が実行する処理の例を説明するための図である。図７は、図２に示す担当者識別部が実行する処理の例を説明するための図である。図８は、抽出装置が実行する処理手順の例を示すフローチャートである。図９は、識別装置の構成例を示す図である。図１０は、業務の識別名と当該業務の担当者の識別名のグラフ化を説明するための図である。図１１は、業務の識別名と当該業務の担当者の識別名のグラフ化を説明するための図である。図１２は、業務の識別名と当該業務の担当者の識別名のグラフ化を説明するための図である。図１３は、業務の識別名と当該業務の担当者の識別名のグラフ化の例を示す図である。図１４は、業務の識別名と当該業務の担当者の識別名のグラフ化の例を示す図である。図１５は、情報抽出装置の構成例を示す図である。図１６は、抽出プログラムを実行するコンピュータを示す図である。

　以下、図面を参照しながら、本発明を実施するための形態（実施形態）について説明する。本発明は、本実施形態に限定されない。

［概要］
　まず、図１を用いて、本実施形態の抽出装置の概要を説明する。一般的に、PTが業務のために作成したファイルのファイル名やフォルダ名には、そのPT特有の業務の識別名が含まれている可能性が高いと考えられる。そこで、本実施形態の抽出装置は、PTが業務で利用するフォルダのフォルダパス（例えば、フォルダパス１０１）を取得し、フォルダパスに示されるフォルダ名・ファイル名から、PTが担当する業務の識別名を抽出する。

　例えば、抽出装置は、まず、フォルダパス１０１に示されるフォルダ名・ファイル名を、PT（例えば、A）が担当する業務の識別名候補として抽出する（（１））。

　ここで、抽出した業務の識別名候補には、ノイズ（例えば、「参考」「過去資料」「temp」「image」等）が含まれる可能性がある。そこで、抽出装置は、フォルダパス１０１に示される各ファイルのテキスト・プロパティを解析することにより、PT（例えば、A）の業務の識別名のみを抽出し、ノイズを除去する（（２））。

　例えば、抽出装置は、図４に示すように、ファイル内のテキストに、当該ファイルの先祖フォルダ名が含まれていれば、当該フォルダ名を業務の識別名として抽出するが、当該ファイルの先祖フォルダ名が含まれていなければ、当該フォルダ名を業務の識別名として抽出しない。また、例えば、抽出装置は、ファイルのプロパティ情報に示されるファイルの作成者または最終更新者が、PT（例えば、A）であれば、当該ファイルの示す業務の識別名を抽出するが、PT（例えば、A）以外の人物であれば、当該ファイルの示す業務の識別名を抽出しない。

　抽出装置が上記の処理を行うことで、例えば、（１）で抽出した業務の識別名候補のうち、業務名ではない「過去資料」と、PT（A）以外の人物（PT（B））が担当する「ヒトDT対話プロトコル」は抽出の対象外となる。これにより抽出装置は、例えば、フォルダパス１０１に示されるフォルダ名・ファイル名から、PT（A）が担当する業務の識別名（例えば、DTC、A-Me、A-Me基盤等）を抽出することができる。

［構成例］
　次に、図２を用いて、抽出装置１０の構成例を説明する。抽出装置１０は、例えば、入出力部１１、記憶部１２、および、制御部１３を備える。

　入出力部１１は、各種データの入出力を司るインタフェースである。例えば、入出力部１１は、担当者が業務で利用するファイルを格納するフォルダの構成を示すフォルダパスの入力を受け付ける。また、入出力部１１は、例えば、制御部１３により抽出された業務の識別名と当該業務の担当者名との組み合わせのリストを出力する。

　記憶部１２は、制御部１３が各種処理を実行する際に参照されるデータ、プログラム等を記憶する。記憶部１２は、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。

　制御部１３は、抽出装置１０全体の制御を司る。制御部１３は、例えば、ＣＰＵ（Central　Processing　Unit）が、記憶部１２に記憶されるプログラムを実行することにより、図２に例示する、各部の機能を実現する。

　制御部１３は、フォルダパス取得部１３１と、フォルダ名・ファイル名取得部１３２と、ファイル取得部１３３と、テキスト取得部１３４と、プロパティ取得部１３５と、業務識別名抽出部１３６と、担当者識別部１３７とを備える。適宜、図３を参照しながら、上記の各部を説明する。

　フォルダパス取得部１３１は、上記のフォルダパスを取得する。フォルダ名・ファイル名取得部１３２は、フォルダパス取得部１３１により取得されたフォルダパスからフォルダ名とファイル名を取得する。

　ファイル取得部１３３は、フォルダパス取得部１３１により取得されたフォルダパスに基づき、各フォルダに格納されるファイルを取得する。

　テキスト取得部１３４は、ファイル取得部１３３により取得されたファイルからテキストを取得する。プロパティ取得部１３５は、ファイル取得部１３３により取得されたファイルのプロパティ情報（例えば、ファイル作成者、ファイル更新者、作成日時、更新時期、リビジョン数等）を取得する。

　業務識別名抽出部１３６は、フォルダ名・ファイル名取得部１３２により取得されたフォルダ名とファイル名から、業務の識別名を抽出し、出力する。

　例えば、業務識別名抽出部１３６は、フォルダ名・ファイル名取得部１３２により取得されたファイル名を業務の識別名として抽出する。また、業務識別名抽出部１３６は、フォルダ名・ファイル名取得部１３２により取得されたフォルダ名から、以下のようにして業務の識別名を抽出する。

　まず、業務識別名抽出部１３６は、テキスト取得部１３４により取得されたファイルのテキストを解析し、当該ファイルのテキストに、当該ファイルを格納するフォルダのフォルダ名が含まれるか否かを判定する。ここで、業務識別名抽出部１３６が当該ファイルのテキストに、当該ファイルを格納するフォルダのフォルダ名が含まれると判定した場合、当該フォルダ名を業務の識別名として抽出する。

　例えば、フォルダパス取得部１３１により取得されたフォルダパスが示すフォルダの構成が、図４に示す構成である場合を考える。この場合、業務識別名抽出部１３６は、図４に示す「基盤紹介.pptx」というファイル内のテキストに、当該ファイルを格納するフォルダのフォルダ名（DTC、A-Me、A-Me基盤）があるか否かを判定する。なお、ファイルを格納するフォルダは、当該ファイルを格納するフォルダとその先祖フォルダ（DTC、A-Me）を含むものとする。ここで、ファイルのテキスト内に当該ファイルを格納するフォルダのフォルダ名（DTC、A-Me、A-Me基盤）がある場合、当該フォルダ名（DTC、A-Me、A-Me基盤）を業務の識別名と判断し、抽出する。

　また、業務識別名抽出部１３６は、当該テキスト内に当該ファイルを格納するフォルダのフォルダ名がないと判定した場合、例えば、図５に示すように、当該フォルダ名を単語単位のn-gramに分割し、nが大きい順にテキスト内における当該単語の有無を確認し、当該単語があれば当該フォルダ名を業務の識別名と判断し、抽出してもよい。

　例えば、図５に示す例の場合、「PKG構築.pptx」というファイル内のテキストに「記憶データ自動構築」という単語そのものはないが、2-gramの「記憶データ」という単語はある。よって、業務識別名抽出部１３６は、「記憶データ自動構築」というフォルダ名を業務の識別名と判断し、抽出する。

　図２の説明に戻る。担当者識別部１３７は、業務識別名抽出部１３６が業務の識別名の抽出の根拠としたファイルのプロパティ情報に基づき、当該業務の担当者を識別する。

　例えば、担当者識別部１３７は、当該ファイルのプロパティ情報に示されるファイル作成者または最終更新者に基づき、当該業務の担当者を識別する。そして、担当者識別部１３７は、業務の担当者の識別結果を出力する。例えば、担当者識別部１３７は、当該ファイルのプロパティ情報に示されるファイル作成者または最終更新者を当該ファイルの示す業務の担当者の識別名として抽出し、当該業務の識別名と対応付けた情報を出力する。

　例えば、図６に示す「基盤紹介.pptx」というファイルのプロパティ情報（ファイルプロパティ）に示されるファイルの作成者、最終更新者は「User」である。よって、担当者識別部１３７は、当該ファイルの示す業務「DTC」、「A-Me」、「A-Me基盤」の担当者を「User」と識別する。そして、担当者識別部１３７は、上記の識別結果を出力する。例えば、担当者識別部１３７は、業務の識別名「DTC」、「A-Me」、「A-Me基盤」と、業務の担当者の識別名「User」とを対応付けた情報を出力する。

　なお、担当者識別部１３７は、ファイルのプロパティ情報に含まれるファイルの作成日、更新日に基づき、当該担当者が当該業務を担当していた時期を判断してもよい。

　例えば、図６に示すファイルプロパティに示されるファイルの更新日は「2022-06-03」である。よって、担当者識別部１３７は、「DTC」、「A-Me」、「A-Me基盤」を、「User（本人）」が「今（2022年度）」担当している業務と判断する。そして、担当者識別部１３７は、業務の識別名「DTC」、「A-Me」、「A-Me基盤」と、業務の担当者の識別名「User」と、当該担当者が当該業務を担当していた時期（「今（2022年度）」）とを対応付けた情報を出力する。

　また、例えば、図７に示す「ヒトDT対話プロトコル.pptx」というファイルのファイルプロパティにおけるファイルの作成者、最終更新者は「田中太郎」であり、ファイルの作成日は「2021-05-30」、更新日は「2021-12-17」である。よって、担当者識別部１３７は、「ヒトDT対話プロトコル」を、「田中太郎（本人以外の人物）」が「昔（2021年度）」担当していた業務と判断する。そして、担当者識別部１３７は、業務の識別名「ヒトDT対話プロトコル」と、業務の担当者の識別名「田中太郎」と、当該担当者が当該業務を担当していた時期「昔（2021年度）」）とを対応付けた情報を出力する。

［処理手順の例］
　次に、図８を用いて抽出装置１０の処理手順の例を説明する。まず、抽出装置１０のフォルダパス取得部１３１は、入出力部１１経由でフォルダパスを取得する（Ｓ１）。次に、フォルダ名・ファイル名取得部１３２は、Ｓ１で取得されたフォルダパスから、各フォルダのフォルダ名と、各フォルダに格納されるファイル名とを取得する（Ｓ２）。

　また、ファイル取得部１３３は、Ｓ１で取得されたフォルダパスに基づき、各フォルダに格納されるファイルを取得する（Ｓ３）。そして、テキスト取得部１３４は、Ｓ３で取得されたファイルに含まれるテキストを取得する（Ｓ４）。また、プロパティ取得部１３５は、Ｓ３で取得されたファイルのプロパティ情報を取得する（Ｓ５）。

　また、業務識別名抽出部１３６は、Ｓ２で取得されたフォルダ名およびファイル名と、Ｓ４で取得されたファイルのテキストとに基づき、業務の識別名を抽出する（Ｓ６）。その後、担当者識別部１３７は、Ｓ５で取得されたファイルのプロパティ情報に基づき、Ｓ６で抽出された業務の担当者の識別名を抽出する（Ｓ７：担当者の識別）。そして、担当者識別部１３７は、Ｓ６で抽出された業務の識別名とＳ７で抽出された当該業務の担当者の識別名との組み合わせのリストを出力する（Ｓ８）。

　抽出装置１０が上記の処理を実行することで、担当者が担当する業務の識別名と当該業務の担当者の識別名との組み合わせを示したリストを出力することができる。そして、識別装置は、上記のリストを用いることで、入力データに含まれる各担当者の業務を、担当者ごと、業務ごとに識別することができる。これにより、識別装置は、入力データから、指定された担当者（例えば、PT（A））の指定された業務の情報を抽出することができる。

［担当者識別部の変形例］
　なお、担当者識別部１３７は、ファイルのプロパティ情報に基づき業務の担当者を識別することとしたがこれに限定されない。

　例えば、担当者識別部１３７は、ファイル名またはファイルに含まれるテキストに対し、固有表現抽出を行うことで人名を抽出する。そして、担当者識別部１３７は、抽出した人名を、ファイル名から抽出された業務、および、当該ファイル名のファイルのテキストに基づき抽出した業務の担当者または関係者とする。

　また、担当者識別部１３７は、以下のようにしてファイルから業務の担当者を識別してもよい。例えば、ファイルから抽出したテキストに対し、当該ファイルの作成者が、自分が作成したファイルであれば「１」、自分以外の人物が作成したファイルであれば「０」を付与したデータセットを用意する。そして、当該データセットを教師データとして、自然言語処理モデル（例えば、BERT等）をファインチューニングしておく。そして、担当者識別部１３７は、上記のファインチューニングされた自然言語処理モデルに、ファイルから抽出したテキストを入力し、当該ファイルの作成者（担当者）を推定する。そして、担当者識別部１３７は、推定された担当者を、当該ファイルに基づき抽出した業務の担当者とする。

　このようにすることで、担当者識別部１３７は、ファイルのプロパティ情報にファイルの作成者や更新者の情報が含まれていない場合でも、業務の担当者を識別することができる。

　なお、抽出装置１０は、業務の識別名の抽出と当該業務の担当者の識別の両方を行うこととしたが、これに限定されない。例えば、抽出装置１０が受け付けたフォルダパスが、ある一人の担当者のみが扱うファイルのフォルダパスであることが分かっている場合、業務の識別名の抽出のみを行い、当該業務の担当者の識別は行わないこととしてもよい。

　以上説明した抽出装置１０によれば、担当者識別を行わない場合、あるいは担当者識別に学習データが不要の場合、学習データなしで業務の識別名を抽出することができる。その結果、比較的マイナーな業種の業務の識別名であっても学習データの準備なしで抽出することができる。また、フォルダやファイルを用いるシーンであれば、業務に限らず適用可能である。

　また、抽出装置１０は、フォルダ名、ファイル名だけでなく、ファイル内のテキストの解析結果を用いて、業務の識別名を抽出するので、フォルダ名、ファイル名にノイズ（業務名ではない文字列等）が含まれていても、これを自動で除去することができる。

　さらに、抽出装置１０は、ファイルのプロパティ情報の解析を行うので、抽出した業務の識別名（業務名）の業務を誰が担当しているかを識別することができる。これにより、例えば、フォルダパスに示されるファイル群に、他の担当者のファイルが混在している場合でも、抽出装置１０は、これを識別することができる。

［識別装置］
　次に、抽出装置１０により抽出された業務の識別名のリストを用いて、入力データに含まれる担当者の業務を識別する識別装置１００の構成例を説明する。識別装置１００は、例えば、入出力部１１０、記憶部１２０、および、制御部１３０を備える。

　入出力部１１０は、各種データの入出力を司るインタフェースである。例えば、入出力部１１０は、業務の識別名のリストの入力を受け付ける。また、例えば、入出力部１１０は、制御部１３０による業務の識別結果を出力する。

　記憶部１２０は、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現され、制御部１３０が各種処理を実行する際に参照されるデータ、プログラム等が記憶される。例えば、記憶部１２０は、入出力部１１０で受け付けた業務の識別名のリストを記憶する。

　制御部１３０は、識別装置１００全体の制御を司る。制御部１３０は、例えば、ＣＰＵが、記憶部１２０に記憶されたプログラムを実行することにより、図９に例示する、識別部１３８の機能を実現する。

　識別部１３８は、上記の業務の識別名のリストに基づき、入力データに含まれる担当者の業務を識別し、業務の識別結果を出力する。

　なお、識別装置１００は、抽出装置１０から出力された、業務の識別名と当該業務の担当者の識別名との組み合わせのリストを用いて、業務の識別と当該業務の担当者の識別を行ってもよい。

　また、識別装置１００は、上記のリストと、各担当者が利用するファイルのフォルダの構成とを用いて、業務の識別名と当該業務の担当者の識別名を示すグラフを作成してもよい。この場合の実施形態を図１０～図１２を用いて説明する。

　まず、識別装置１００は、図１０に示すように、入力された、フォルダの構成に基づき、各フォルダ、各ファイル名をノードとし、フォルダの構成上の親子関係をエッジで示したグラフを構築する。

　次に、識別装置１００は、図１１に示すように、図１０で構築したグラフに担当者のノードを追加する。そして、識別装置１００は、担当者が担当する業務の識別名のノードにエッジを追加する。なお、図１１において、グラフに複数の担当者が登場する場合、その担当者同士は業務において連携していると推定されるので、識別装置１００は、担当者のノード同士を「work_with」というエッジで接続する。

　次に、識別装置１００は、図１２に示すように、図１１で構築したグラフのノードのうち、上記のリストに載っていないノードを業務の識別名のノードではないと判断し、当該ノードを削除し、残っているノード間にエッジを再設定する。

　識別装置１００が上記の処理を行うことで、業務間の関係性、業務と担当者間の関係性、担当者間の関係性を表現したグラフを作成することができる。

　なお、図１３、図１４は、実際のフォルダから作成されたグラフをNeo4j（https://neo4j.com/）というアプリケーションを用いて描画したものである。図１３、図１４において、ノードに入りきらない名前（業務の識別名）は「…」で省略されている。

　なお、識別装置１００が、上記のようなグラフを作成することで、例えば、担当者が複数のフォルダ名の組み合わせで業務を識別する場合にも対応可能である。例えば、「整理番号：521061」というフォルダの中に「拒絶理由通知」というフォルダが格納されている場合、図１４に示すように、「拒絶理…（拒絶理由通知）」という業務のノードと、「整理番…（整理番号：521061）」という業務のノードとが接続されたグラフが作成される。これにより、「整理番号：521061」と「拒絶理由通知」等、複数のフォルダ名の組み合わせにより識別される業務についても、グラフ上に表現することができる。

　なお、上記のようにして作成された複数のグラフを統合してもよい。例えば、チームメンバーそれぞれの作業フォルダから作成されたグラフを１つのグラフに統合する。これにより、統合されたグラフを用いて、例えば、業務A，B，C等の複数の業務に関わった人物を検索することができる。

　また、識別装置１００は、業務の識別名のリストを用いて、Slack（登録商標）等のコミュニケーションツールに入力されたテキストや資料を、業務ごとに振り分け、整理してもよい。

　また、抽出装置１０は、上司または部下の作業フォルダから、当該人物が担当している業務の識別名を抽出し、データベースに蓄積しておく。そして、識別装置１００は、上記のデータベースを参照し、当該人物（上司／部下）が、いま担当している業務の情報を出力してもよい。これにより、上司の稼働確認や、部課の稼働の管理等を行いやすくなる。

［情報抽出装置］
　次に、抽出装置１０により抽出された業務の識別名と担当者の識別名（担当者名）を用いて、入力データから業務に関する情報を抽出する情報抽出装置２００の構成例を説明する。情報抽出装置２００は、例えば、入出力部２１０、記憶部２２０、および、制御部２３０を備える。

　入出力部２１０は、各種データの入出力を司るインタフェースである。例えば、入出力部２１０は、抽出装置１０により抽出された業務の識別名と担当者名の入力を受け付ける。また、例えば、入出力部２１０は、制御部２３０により抽出された業務に関する情報を出力する。

　記憶部２２０は、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現され、制御部２３０が各種処理を実行する際に参照されるデータ、プログラム等が記憶される。例えば、記憶部２２０は、入出力部２１０で受け付けた業務の識別名と担当者名を記憶する。

　制御部２３０は、情報抽出装置２００全体の制御を司る。制御部２３０は、例えば、ＣＰＵが、記憶部２２０に記憶されたプログラムを実行することにより、図１５に例示する、情報抽出部２３１の機能を実現する。

　情報抽出部２３１は、記憶部２２０に記憶された業務の識別名（業務名）と担当者名に基づき、入力データから、前記業務に関する情報を抽出する。そして、情報抽出部２３１は、抽出した前記業務に関する情報を出力する。

　このような情報抽出装置２００によれば、抽出装置１０により抽出された担当者の業務の識別名に基づき、入力データから、当該業務に関する情報を抽出することができる。

　また、情報抽出装置２００は、抽出装置１０から出力された、業務の識別名と当該業務の担当者の識別名との組み合わせのリストを用いて、指定された担当者の指定された業務の情報を入力データから抽出してもよい。

［システム構成等］
　また、図示した各部の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ及び当該ＣＰＵにて実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

　また、前記した実施形態において説明した処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　前記した抽出装置１０は、パッケージソフトウェアやオンラインソフトウェアとしてプログラム（抽出プログラム）を所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を抽出装置１０として機能させることができる。ここで言う情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal　Handyphone　System）等の移動体通信端末、さらには、ＰＤＡ（Personal　Digital　Assistant）等の端末等がその範疇に含まれる。

　図１６は、抽出プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ（Random　Access　Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、上記の抽出装置１０が実行する各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、抽出装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施形態の処理で用いられるデータは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続される他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　１０　抽出装置
　１１，１１０，２１０　入出力部
　１２，１２０，２２０　記憶部
　１３，１３０，２３０　制御部
　１００　識別装置
　１３１　フォルダパス取得部
　１３２　フォルダ名・ファイル名取得部
　１３３　ファイル取得部
　１３４　テキスト取得部
　１３５　プロパティ取得部
　１３６　業務識別名抽出部
　１３７　担当者識別部
　１３８　識別部
　２００　情報抽出装置
　２３１　情報抽出部

Claims

　担当者が業務で利用するファイルを格納するフォルダの構成を示すフォルダパスを取得する取得部と、
　前記フォルダに格納されるファイルからテキストを取得するテキスト取得部と、
　前記フォルダパスに示されるフォルダの構成に基づき、前記ファイルから取得されたテキストに、当該ファイルを格納するフォルダのフォルダ名または前記フォルダの先祖フォルダのフォルダ名があると判定した場合、前記フォルダ名を前記担当者が担当する業務の識別名として抽出し、出力する業務識別名抽出部と
　を備えることを特徴とする抽出装置。
　前記業務識別名抽出部は、さらに、
　前記ファイルのファイル名を、前記担当者が担当する業務の識別名として抽出し、出力する
　ことを特徴とする請求項１に記載の抽出装置。
　前記抽出装置は、さらに、
　前記ファイルのプロパティ情報に含まれる前記ファイルの作成者に基づき、当該ファイルの示す業務の担当者を識別する担当者識別部を備える
　ことを特徴とする請求項１に記載の抽出装置。
　前記担当者識別部は、
　前記ファイルのプロパティ情報に含まれる前記ファイルの作成者を当該ファイルの示す業務の担当者の識別名として抽出し、抽出した前記業務の担当者の識別名を、前記業務識別名抽出部により抽出された、当該業務の識別名と対応付けた情報を出力する
　ことを特徴とする請求項３に記載の抽出装置。
　前記業務識別名抽出部は、
　前記ファイルから取得されたテキストに、当該ファイルを格納するフォルダのフォルダ名を構成する単語があると判定した場合、当該ファイルを格納するフォルダのフォルダ名を前記業務の識別名として抽出する
　ことを特徴とする請求項１に記載の抽出装置。
　請求項１に記載の抽出装置によって抽出された業務の識別名と担当者名を記憶する記憶部と、
　前記記憶部に記憶されている前記業務の識別名と担当者名を用いて、入力データに含まれる情報から前記業務に関する情報を抽出する業務情報抽出部と、
　前記業務情報抽出部により抽出された業務の情報を出力する出力部と
　を備えることを特徴とする情報抽出装置。
　抽出装置により実行される抽出方法であって、
　担当者が業務で利用するファイルを格納するフォルダの構成を示すフォルダパスを取得する工程と、
　前記フォルダに格納されるファイルからテキストを取得する工程と、
　前記フォルダパスに示されるフォルダの構成に基づき、前記ファイルから取得されたテキストに、当該ファイルを格納するフォルダのフォルダ名または前記フォルダの先祖フォルダのフォルダ名があると判定した場合、前記フォルダ名を前記担当者が担当する業務の識別名として抽出し、出力する工程と
　を含むことを特徴とする抽出方法。
　コンピュータを、請求項１から請求項５のいずれか１項に記載の抽出装置として機能させるための抽出プログラム。