JPWO2020044558A1 - 分類規則生成プログラム、分類規則生成方法および分類規則生成装置 - Google Patents

分類規則生成プログラム、分類規則生成方法および分類規則生成装置 Download PDF

Info

Publication number
JPWO2020044558A1
JPWO2020044558A1 JP2020540004A JP2020540004A JPWO2020044558A1 JP WO2020044558 A1 JPWO2020044558 A1 JP WO2020044558A1 JP 2020540004 A JP2020540004 A JP 2020540004A JP 2020540004 A JP2020540004 A JP 2020540004A JP WO2020044558 A1 JPWO2020044558 A1 JP WO2020044558A1
Authority
JP
Japan
Prior art keywords
classification
text data
character strings
character string
concatenated character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020540004A
Other languages
English (en)
Other versions
JP7044162B2 (ja
Inventor
智哉 野呂
智哉 野呂
謙介 馬場
謙介 馬場
茂紀 福田
茂紀 福田
清司 大倉
清司 大倉
太田 唯子
唯子 太田
隆夫 毛利
隆夫 毛利
靖 岩崎
靖 岩崎
祐太郎 木田
祐太郎 木田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2020044558A1 publication Critical patent/JPWO2020044558A1/ja
Application granted granted Critical
Publication of JP7044162B2 publication Critical patent/JP7044162B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

分類装置は、テキストデータを単語分割して得られる単語を連結した複数の連結文字列を抽出する。分類装置は、複数の連結文字列それぞれについて、テキストデータを含む複数のテキストデータそれぞれが分類される分類カテゴリを記憶する記憶部を参照し、複数のテキストデータのうち、当該連結文字列を含むテキストデータの分類先の分布を算出する。分類装置は、分類先の分布に基づいて、複数の連結文字列から特徴語を選択し、テキストデータが分類される分類カテゴリと特徴語とを対応付けた分類規則を生成する。

Description

本発明は、分類規則生成プログラム、分類規則生成方法および分類規則生成装置に関する。
コンピュータで使用中のアプリケーションやウィンドウタイトル、予定表のスケジュールタイトル、送受信メールのタイトルなどの業務ログを、顧客対応や商品企画などのように、その業務ログが記録されたときに行っていた業務内容に分類することが行われている。例えば、業務内容に対応付けられた各テキストデータを分割して部分文字列を抽出し、出現頻度が最も多い部分文字列を業務内容の特徴語として対応付ける。
一例を挙げると、「商品企画」で使用された複数のテキストそれぞれについて部分文字列を抽出し、出現頻度が最も多い部分文字列「議事録」を特定する。そして、「特徴語(議事録)、業務内容(商品企画)」を分類規則として生成する。その後、新たに発生した業務ログに「議事録」が含まれる場合、当該業務ログを「商品企画」に分類する。
Rie Kubota Ando、Lillian Lee、"Mostly-Unsupervised Statistical Segmentation of Japanese Kanji Sequences"、2003年 Cambridge University Press
しかしながら、上記技術で生成された分類規則は、テキストデータから得られる文字列による分類であり、その後の分類に適したものではないので、分類精度が低い。例えば、文字列「定例会」は多くの業務ログに出現するが、「定例会」を含むか否かの分類規則では業務内容までを特定できない。
なお、分類に適した語句を集めた辞書を人手で事前に用意する手法も考えられるが、業務ログ内のテキストではその業務特有の表現、その略称、通称が多く、それらを網羅することは困難であり、現実的ではない。
一つの側面では、分類精度が高い分類規則を生成することができる分類規則生成プログラム、分類規則生成方法および分類規則生成装置を提供することを目的とする。
第1の案では、分類規則生成プログラムは、コンピュータに、テキストデータを単語分割して得られる単語を連結した複数の連結文字列を抽出する処理を実行させる。分類規則生成プログラムは、コンピュータに、前記複数の連結文字列それぞれについて、前記テキストデータを含む複数のテキストデータそれぞれが分類される分類カテゴリを記憶する記憶部を参照し、前記複数のテキストデータのうち、当該連結文字列を含むテキストデータの分類先の分布を算出する処理を実行させる。分類規則生成プログラムは、コンピュータに、前記分類先の分布に基づいて、前記複数の連結文字列から特徴語を選択する処理を実行させる。分類規則生成プログラムは、コンピュータに、前記テキストデータが分類される分類カテゴリと前記特徴語とを対応付けた分類規則を生成する処理を実行させる。
一つの側面では、分類精度が高い分類規則を生成することができる。
図1は、実施例1にかかる分類装置の全体構成例を説明する図である。 図2は、実施例1にかかる分類装置の機能構成を示す機能ブロック図である。 図3は、業務ログDBに記憶される業務ログの例を示す図である。 図4は、業務分類DBに記憶される分類情報の一例を示す図である。 図5は、文字列DBに記憶される情報の例を示す図である。 図6は、形態素解析の処理例を説明する図である。 図7は、出現頻度の計算および出現頻度の補正を説明する図である。 図8は、出現頻度の補正結果を説明する図である。 図9は、補正後の出現頻度に基づく文字列の境界の特定を説明する図である。 図10は、補正後の出現頻度に基づくテキスト分割を説明する図である。 図11は、分類規則の生成例を説明する図である。 図12は、出現頻度処理の流れを示すフローチャートである。 図13は、規則生成処理の流れを示すフローチャートである。 図14は、ハードウェア構成例を説明する図である。
以下に、本発明にかかる分類規則生成プログラム、分類規則生成方法および分類規則生成装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
[全体構成]
図1は、実施例1にかかる分類装置10の全体構成例を説明する図である。図1に示す分類装置10は、ログ情報などのテキストデータを分割して特徴語を抽出し、特徴語と予め用意されたカテゴリとを対応付ける業務分類モデルを生成し、生成した業務分類モデルにしたがって、ログ情報をカテゴリに分類する分類規則生成装置の一例である。
具体的には、図1に示すように、分類装置10は、業務分類モデルに適用する分類規則を学習する学習器と、学習器による学習結果を適用した分類器を有する。例えば、分類装置10は、メール、予定、電話などの業務データや、ウィンドウタイトル、アプリケーションファイルなどの操作ログをログ情報として収集する。そして、分類装置10の学習器は、ログ情報に含まれるテキストデータを単語に分割し、連続するN語の文字列(単語列)の出現頻度を計算する。
そして、分類装置10の学習器は、各文字列が業務ログに出現する場合の業務内容の分類先の分布(ばらつき)を計算し、出現頻度を補正する。すなわち、学習器は、ばらつきの大きい文字列の出現頻度を下げる。その後、分類装置10の学習器は、補正後の各文字列の出現頻度をもとにテキストデータの分割単位を決定し、決定した分割単位で分割された文字列から分類に適した文字列を抽出して、分類規則に採用する。例えば、学習器は、分類規則「特徴語、カテゴリ」として、「見積もり、顧客対応」や「出張申請、事務処理」などを生成する。
分類装置10の分類器は、このようにして生成された分類規則を適用した業務分類モデルを構築し、新たな発生する業務データや操作ログを分類規則にしたがってカテゴリに分類する。例えば、分類器は、ウィンドウタイトルに「見積もり」が含まれる業務ログをカテゴリ「顧客対応」に分類する。
また、管理者などのユーザは、分類結果を学習器に定期的にフィードバックする。そして、分類装置10の学習器は、上述した学習を定期的に実行し、分類規則を更新する。例えば、学習器は、フィードバックにしたがって新たな学習を繰り返すことで、分類規則「特徴語、カテゴリ」として「ABC、顧客対応」や「XYシステム、顧客対応」などを新たに追加する。したがって、分類装置10は、分類精度が高い分類規則を生成することができる。
[機能構成]
図2は、実施例1にかかる分類装置10の機能構成を示す機能ブロック図である。図2に示すように、分類装置10は、通信部11、記憶部12、制御部20を有する。
通信部11は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどである。例えば、通信部11は、業務データや操作ログなどのログ情報を他の装置から受信し、分類結果などを管理端末などに送信する。
記憶部12は、データや制御部20が実行するプログラムなどを記憶する記憶装置の一例であり、例えばハードディスクやメモリなどである。記憶部12は、業務ログDB13、業務分類DB14、文字列DB15、分類規則DB16を記憶する。
業務ログDB13は、学習対象である業務データや操作ログなどのログ情報を記憶するデータベースである。ここで記憶されるログ情報は、テキストデータであり、管理者が定期的に格納することもでき、制御部20が取得して格納することもできる。
図3は、業務ログDB13に記憶される業務ログの例を示す図である。図3に示すように、業務ログDB13は、送受信メールタイトルなどの業務ログ、アプリケーションファイルやウィンドウタイトルなどの操作ログ、スケジューラ等によって生成される予定表などを記憶する。業務ログは、ログが作成された時刻を示す「作成時刻」と、ログのファイル名である「ファイル名」とが対応付けられたログ情報である。図3の例では、業務ログとして、9:00:00に作成された「Xプロ定例会_議事録」が業務ログとして格納されていることを示す。
操作ログは、操作の開始と終了を示す「開始時刻、終了時刻」と、操作対象を示す「ウィンドウタイトル」と、操作対象を起動するプロセスを示す「起動プロセス」とが対応付けられたログ情報である。図3の例では、9:35:06から9:38:43の間、BBBプロセスによって起動されて、ユーザによって操作された「商談報告資料.bbb」が業務ログとして格納されていることを示す。
予定表は、予定の開始と終了を示す「開始時刻、終了時刻」と予定の内容を示す「件名」とを対応付けたログ情報である。図3の例では、9:30:00に開始して、10:30:00に終了する「部会」が業務ログとして格納されていることを示す。
業務分類DB14は、分類先のカテゴリと分類済みの業務ログとを対応付けて記憶するデータベースである。図4は、業務分類DB14に記憶される分類情報の一例を示す図である。図4に示すように、業務分類DB14は、「分類カテゴリ、該当ログ」を対応付けて記憶する。「分類カテゴリ」は、分類先となるカテゴリを示し、ユーザ等により任意に設定変更することができる。「該当ログ」は、カテゴリに分類された業務ログの一覧である。
図4の例では、業務ログ「商談報告資料.bbb」が分類カテゴリ「顧客対応」に分類されたことを示し、業務ログ「Xプロ定例会_議事録」が分類カテゴリ「商品企画」に分類されたことを示す。なお、分類カテゴリの例としては、クライアントとの打ち合わせや資料作成に該当する「顧客対応」、新商品のための調査や検討会議などに該当する「商品企画」、商品の設計・開発・テストなどに該当する「設計・開発」、商品の販売イベントの企画や実施などに該当する「拡販」がある。また、部会や予算管理などに該当する「職場会議」、出張精算や商談状況登録などに該当する「事務処理」、講習会参加やe−Learningなどに該当する「教育」、いずれにも該当しない「その他」などがある。
文字列DB15は、業務ログから抽出された文字列の出現頻度に関する情報を記憶するデータベースである。ここで記憶される情報は、制御部20によって生成される。図5は、文字列DB15に記憶される情報の例を示す図である。図5に示すように、文字列DB15は、「文字列(w)、出現頻度(F(w))、補正後出現頻度(F(w))」を対応付けて記憶する。
「文字列(w)」は、制御部20によって抽出される文字列であり、「出現頻度(F(w))」は、学習対象である全業務ログにおける文字列の出現頻度であり、「補正後出現頻度(F(w))」は、制御部20によって補正された文字列の出現頻度である。図5の例では、文字列「Xプロ定例会」における業務ログ全体の出現頻度が「6」回で、制御部20によって「2.35」回に補正されたことを示す。各項目の算出手法等については後述する。
分類規則DB16は、制御部20によって生成される分類規則を記憶するデータベースである。具体的には、分類規則DB16は、文字列と分類先のカテゴリとを対応付けて記憶する。なお、ここで記憶される分類規則は、後述する制御部20によって生成され、業務分類モデルに適用されて、業務ログの分類に使用される。
制御部20は、分類装置10全体の処理を司る処理部であり、例えばプロセッサなどである。この制御部20は、学習部30と分類部60を有する。なお、学習部30と分類部60は、プロセッサなどが有する電子回路やプロセッサなどが実行するプロセスの一例である。
学習部30は、出現頻度処理部40と規則処理部50とを有し、業務ログと業務ログに出現する文字列の出現頻度との関係を学習し、分類規則を生成する処理部である。出現頻度処理部40は、形態素解析部41、頻度算出部42、頻度補正部43を有し、業務ログと業務ログに出現する文字列の出現頻度との関係を抽出する処理部である。
形態素解析部41は、各業務ログの各テキストデータを単語に分割し、連続するN語(Nは任意の自然数)を連結させた連結文字列(以下、単に文字列と記載する場合がある)を抽出する処理部である。具体的には、形態素解析部41は、一般的な形態素解析の手法を用いて、テキストデータを単語に分割する。そして、形態素解析部41は、抽出された単語から、連続する2語ごとに連結文字列、3語ごとの連結文字列、4語ごとの連結文字列、5語ごとの連結文字列それぞれを抽出し、頻度算出部42に出力する。
図6は、形態素解析の処理例を説明する図である。図6の例では、学習対象の業務ログのテキストデータが「Xプロ定例会_議事録.xxx」である例で説明する。図6に示すように、形態素解析部41は、テキストデータ「Xプロ定例会_議事録.xxx」を単語分割し、「X」、「プロ」、「定例」、「会」、「_」、「議事」、「録」、「.」、「xxx」を抽出する。
続いて、形態素解析部41は、抽出された単語から、連続する2語(N=2)を順次組み合わせた文字列(単語列)を生成する。すなわち、形態素解析部41は、「Xプロ」、「プロ定例」、「定例会」、「会_」、「_議事」、「議事録」、「録.」、「.xxx」を生成する。
同様に、形態素解析部41は、抽出された単語から、連続する3語(N=3)を順次組み合わせた文字列を生成する。すなわち、形態素解析部41は、「Xプロ定例」、「プロ定例会」、「定例会_」、「会_議事」、「_議事録」、「議事録.」、「録.xxx」を生成する。
同様に、形態素解析部41は、抽出された単語から、連続する4語(N=4)を順次組み合わせた文字列を生成する。すなわち、形態素解析部41は、「Xプロ定例会」、「プロ定例会_」、「定例会_議事」、「会_議事録」、「_議事録.」、「議事録.xxx」を生成する。
同様に、形態素解析部41は、抽出された単語から、連続する5語(N=5)を順次組み合わせた文字列を生成する。すなわち、形態素解析部41は、「Xプロ定例会_」、「プロ定例会_議事」、「定例会_議事録」、「会_議事録.」、「_議事録.xxx」を生成する。
頻度算出部42は、形態素解析部41により生成された各文字列の出現頻度を算出する処理部である。具体的には、頻度算出部42は、連続するN語として抽出された各文字列が、学習対象の全業務ログにおいて何回出現するかを計数し、頻度補正部43に出力する。例えば、頻度算出部42は、文字列「Xプロ」が業務ログのテキストデータ「Xプロ定例会_議事録.xxx」、「Xプロ食事会」、「Xプロメンバー議事録.yyy」に出現する場合、文字列「Xプロ」の出現頻度を「3回」と計数する。このようにして、頻度算出部42は、各業務ログのテキストデータからN語として抽出された各文字列の出現頻度を算出する。なお、頻度算出部42は、各文字列と出現頻度とを対応付けて文字列DB15に格納する。
頻度補正部43は、各文字列を含む業務ログの分類先を集計し、そのばらつきの指標としてエントロピーを計算し、各文字列の出現頻度を補正する処理部である。具体的には、頻度補正部43は、現状の分類規則に沿った分類手法により、各文字列がどの分類カテゴリに分類されるのかを特定し、分類先の分布を特定する。そして、頻度補正部43は、多くの分類カテゴリに分類されている文字列の出現頻度を下げる補正を行う。すなわち、頻度補正部43は、分類先がばらついている文字列の出現頻度を下げる。
図7は、出現頻度の計算および出現頻度の補正を説明する図である。図7では、Nが2のときの文字列の出現頻度を例にして説明する。図7に示すように、頻度算出部42によって、「文字列(w)、出現頻度(F(w))」として「Xプロ、8」、「プロ定例、10」、「定例会、144」、「会_、88」、「_議事、37」、「議事録、94」、「録.、22」、「.xxx、540」が抽出されたとする。
この状態で、まず、頻度補正部43は、業務分類DB14や文字列DB15を参照し、各文字列の分類先の分布を特定する。例えば、頻度補正部43は、文字列「定例会」を含む業務ログ(テキストデータ)のうち、分類カテゴリ「職場活動」に分類される業務ログが「66個」、分類カテゴリ「商品企画」に分類される業務ログが「20個」、分類カテゴリ「拡販」に分類される業務ログが「13個」、分類カテゴリ「設計・開発」に分類される業務ログが「7個」、分類カテゴリ「顧客対応」に分類される業務ログが「4個」、分類カテゴリ「その他」に分類される業務ログが「4個」であることを特定する。
次に、頻度補正部43は、式(1)を用いて、文字列(w)を含む業務ログの分類先がcとなる割合をもとにエントロピーを算出する。例えば、図7の定例会を例にして説明すると、「w」が文字列の「定例会(144)」であり、「c」が業務分類カテゴリの「職場企画(66)、商品企画(20)、拡販(13)、設計・開発(7)、顧客対応(4)、その他(4)」のそれぞれとなる。
Figure 2020044558
その後、頻度補正部43は、式(2)を用いて、各文字列について算出された出現頻度を補正する。式(2)における「F(w)」は、頻度算出部42によって算出された出現頻度であり、「b」は、1.0より大きい値であり、ここでは8.0とする。図7の「定例会」を例にして説明すると、定例会の補正後の出現頻度は、「F(w)=144×8.0−1.276=8.031」と算出される。このようにして、頻度補正部43は、連続するN語として抽出された各文字列について、分類先の分布の特定、エントロピーの算出、出現頻度の補正を実行する。そして、頻度補正部43は、補正した出現頻度を文字列DB15に格納する。
Figure 2020044558
ここで、文字列に対する出現頻度および補正後出現頻度の集計結果の例を説明する。図8は、出現頻度の補正結果を説明する図である。図8に示すように、文字列「Xプロ」の出現頻度が「8」から「1.23」に補正され、文字列「プロ定例」の出現頻度が「10」から「1.41」に補正され、文字列「Xプロ定例」の出現頻度が「6」から「2.35」に補正され、文字列「プロ定例会」の出現頻度が「10」から「1.41」に補正される。すなわち、単語「プロ」を含む文字列において、「Xプロ」「プロ定例」「プロ定例会」よりも「Xプロ定例」は出現頻度が低いが分類先の分布のばらつき(エントロピー)が小さいため補正後出現頻度は高くなる。
図2に戻り、規則処理部50は、テキスト分割部51と規則生成部52とを有し、出現頻度処理部40によって生成された補正後出現頻度を用いて、各業務ログのテキストデータから分類に適する文字列を抽出し、分類規則を生成する処理部である。
テキスト分割部51は、補正後の出現頻度を用いて、学習データである業務ログ(テキストデータ)を単語に分割する処理部である。具体的には、テキスト分割部51は、文字列の補正後の出現頻度を基に、テキストデータの分割単位を探索する。そして、テキスト分割部51は、探索された単位でテキストデータを分割し、分割結果を規則生成部52に出力する。
図9は、補正後の出現頻度に基づく文字列の境界の特定を説明する図である。図9では、Nが3のときの単語分割例を示している。図9に示すように、まず、テキスト分割部51は、テキストデータ「Xプロ定例会_議事録.xxx」を単語に分割し、「X」、「プロ」、「定例」、「会」、「_」、「議事」、「録」、「.」、「xxx」を抽出する。
続いて、テキスト分割部51は、N=3のときの文字列及び補正後出現頻度を文字列DB15から読み込み、文字列の境界を探索する。具体的には、テキスト分割部51は、N=3のときの各文字列の境界について、その両側の文字列の頻度と境界をまたぐ文字列の頻度を比較し、文字列の境界を決定する。
例えば、図9に示すように、テキスト分割部51は、(1)文字列「Xプロ定例」の補正後出現頻度「2.35」、(2)文字列「会_議事」の補正後出現頻度「2.87」、(3)文字列「プロ定例会」の補正後出現頻度「1.41」、(4)文字列「定例会_」の補正後出現頻度「1.58」を取得する。そして、テキスト分割部51は、先頭の単語「X」から3(N=3)単語目の単語「定例」と4単語目の単語「会」との境界を注目境界1とする。
続いて、テキスト分割部51は、注目境界1の両側となる(1)の補正後出現頻度「2.35」および(2)の補正後出現頻度「2.87」と、注目境界1を跨る(3)の補正後出現頻度「1.41」および(4)の補正後出現頻度「1.57」を特定する。そして、テキスト分割部51は、境界をまたぐ文字列の出現頻度の方が小さくなる割合(スコア)を算出する。すなわち、テキスト分割部51は、(1)>(3)、(2)>(3)、(1)>(4)、(2)>(4)であることから、割合「4/4=1」と算出する。
このようにして、テキスト分割部51は、N=3のときの文字列の各境界について、上記手法によるスコアを算出する。さらに、テキスト分割部51は、テキストデータ「Xプロ定例会_議事録.xxx」について、Nが2から5のときの各境界についても算出する。そして、テキスト分割部51は、Nが2から5で出現した各境界について、Nが2から5のそれぞれについて算出されたスコアの平均値を算出する。例えば、テキスト分割部51は、図9に示した注目境界1のスコアについて、Nが2から5のそれぞれで算出し、算出したスコアの平均値「0.67」と算出する。
次に、テキスト分割部51は、テキストデータにおける各境界について算出された上記スコアに基づいて、分割位置を決定する。図10は、補正後の出現頻度に基づくテキスト分割を説明する図である。
図10の(a)に示すように、テキスト分割部51は、テキストデータ「Xプロ定例会_議事録.xxx」について、単語「X」と「プロ」との間の分割されやすさを表すスコア「0.50」、単語「プロ」と「定例」の間の分割されやすさを表すスコア「0.50」、単語「定例」と「会」の間の分割されやすさを表すスコア「0.67」のように、図9で算出した境界を跨ぐ文字列の補正後出現頻度の割合に基づき、先頭から文字列を生成したときの割合を特定する。そして、テキスト分割部51は、条件1「スコアが閾値(例えば0.5)を超える」または条件2「両隣の境界のスコアより高い」のいずれかを満たす境界を分割境界とする。
例えば、図10の(a)の例では、テキスト分割部51は、単語「定例」と単語「会」との間のスコアが「0.67」で条件1を満たすので、分割境界に決定する。また、テキスト分割部51は、単語「_」と単語「議事」との間のスコアが「0.75」で条件1を満たすので、分割境界に決定する。同様に、テキスト分割部51は、単語「録」と単語「.」との間のスコアが「0.33」で条件2を満たすので、分割境界に決定する。そして、テキスト分割部51は、決定した分割境界に関する情報を規則生成部52に出力する。
このように、補正後出現頻度およびスコアを用いることで、単純な出現頻度で決定される分割境界とは異なる分割境界となる。例えば、図10の(b)に示すように、出現頻度が閾値(例えば0.5)を超える境界を分割境界とする場合、単語「X」と単語「プロ」の間、単語「プロ」と単語「定例」の間、単語「_」と単語「議事」の間、単語「録」と単語「.」の間が分割境界と決定される。
図2に戻り、規則生成部52は、テキスト分割部51により決定された分割境界に基づいて、分割文字列を抽出し、抽出した分割文字列の中から分類カテゴリに適した分割文字列を決定する処理部である。具体的には、規則生成部52は、図10の(a)で示した手法で決定された分割境界に従って、学習データであるテキストデータ(業務ログ)を分割し、該当する分割文字列を抽出する。そして、規則生成部52は、上述したエントロピーや補正前の出現頻度に基づき、抽出した複数の分割文字列の中から最も分類に適した分割文字列を特定する。その後、規則生成部52は、特定した分割文字列と、学習データであるテキストデータが分類される分類カテゴリと、を対応付けた分類規則を生成して分類規則DB16に格納する。
図11は、分類規則の生成例を説明する図である。図11に示すように、規則生成部52は、図10で決定された分割境界にしたがって、学習データである業務ログ「Xプロ定例会_議事録.xxx」を、分割文字列「Xプロ定例」、「会_」、「議事録」、「.xxx」に分割する。続いて、規則生成部52は、分割文字列「Xプロ定例会」、「会_」、「議事録」、「.xxx」それぞれの補正前の出現頻度とエントロピーを出現頻度処理部40や文字列DB15から取得する。
そして、規則生成部52は、条件を満たす分割文字列を、学習データの特徴語として抽出する。図11の例では、規則生成部52は、分割文字列「Xプロ定例」について出現頻度「6」とエントロピー「0.45」、分割文字列「会_」について出現頻度「88」とエントロピー「1.44」、分割文字列「議事録」について出現頻度「94」とエントロピー「1.23」、分割文字列「.xxx」について出現頻度「540」とエントロピー「1.38」を取得する。そして、規則生成部52は、条件「出現頻度>3かつエントロピー<0.5」を満たす分割文字列「Xプロ定例」を特定する。その後、規則生成部52は、学習データである業務ログ「Xプロ定例会_議事録.xxx」の分類カテゴリ「商品企画」を業務分類DB14から特定する。そして、規則生成部52は、分割文字列「Xプロ定例会」と分類カテゴリ「商品企画」とを対応付けた分類規則を生成する。
図2に戻り、分類部60は、分類規則DB16にしたがって業務ログを分類する処理部である。具体的には、分類部60は、新たに発生した分類対象の業務ログを取得し、分類規則DB16に記憶される分類規則の分割文字列が含まれるか否かを判定する。そして、分類部60は、分類対象の業務ログに含まれる分割文字列と対応付けられる分類カテゴリを、分類対象の業務ログに分類し、その結果を業務分類DB14に格納する。
例えば、分類部60は、分類対象の業務ログに「Y展定例」が含まれている場合、図11に示す分類規則にしたがって、分類対象の業務ログを「拡販」に分類する。同様に、分類部60は、分類対象の業務ログに「Zシス管理者定例」が含まれている場合、図11に示す分類規則にしたがって、分類対象の業務ログを「設計・開発」に分類する。なお、分類部60は、1つの分類対象の業務ログに、分類規則にある複数の分割文字列が含まれる場合、いずれかの分割文字列を選択してもよく、1つの分類対象の業務ログに複数の分類カテゴリを対応付けることもできる。
[処理の流れ]
次に、上述した各処理の流れについて説明する。ここでは、出現頻度処理の流れと規則生成処理の流れとについて説明する。なお、各処理や各処理内のステップは、矛盾のない範囲内で処理順番等を入れ替えることができる。
(出現頻度処理の流れ)
図12は、出現頻度処理の流れを示すフローチャートである。図12に示すように、出現頻度処理部40は、業務ログをすべて取得し(S101)、全業務ログについて単語の分割処理が実行されたか否かを判定する(S102)。
ここで、出現頻度処理部40は、単語分割について未処理の業務ログが存在する場合(S102:No)、業務ログを1つ取り出し(S103)、業務ログを単語に分割し(S104)、連続するN語の文字列を抽出する(S105)。
一方、出現頻度処理部40は、全業務ログについて単語分割処理が終了した場合(S102:Yes)、抽出された文字列をすべて取得する(S106)。続いて、出現頻度処理部40は、全文字列について出現頻度の補正処理が完了したか否かを判定する(S107)。
そして、出現頻度処理部40は、出現頻度の補正処理について未処理に業務ログが存在する場合(S107:No)、文字列を1つ取り出し(S108)、文字列を含む業務ログの分類先を業務分類DB14から取得する(S109)。その後、出現頻度処理部40は、出現頻度の計算や補正後出現頻度を計算し、出現頻度を更新する(S110)。一方、出現頻度処理部40は、全業務ログについて出現頻度処理が終了した場合(S107:Yes)、処理を終了する。
(規則生成処理の流れ)
図13は、規則生成処理の流れを示すフローチャートである。図13に示すように、規則処理部50は、業務ログをすべて取得し(S201)、全業務ログについて文字列の抽出処理が実行されたか否かを判定する(S202)。
ここで、規則処理部50は、文字列の抽出処理について未処理の業務ログが存在する場合(S202:No)、業務ログを1つ取り出し(S203)、補正後の出現頻度を基に業務ログを分割し、各分割文字列を抽出する(S204)。
一方、規則処理部50は、全業務ログについて文字列の抽出処理が終了した場合(S202:Yes)、抽出された分割文字列をすべて取得する(S205)。続いて、文字列の抽出処理は、全分割文字列について分類規則の生成処理が完了したか否かを判定する(S206)。
そして、規則処理部50は分類規則の生成処理について未処理に業務ログが存在する場合(S206:No)、分割文字列を1つ取り出し(S207)、分割文字列を含む業務ログの出現頻度と分類先の分布を各DBから取得する(S208)。その後、規則処理部50は、処理対象の分割文字列が条件を満たす場合(S209:Yes)、分類規則に追加し(S210)、S206以降を繰り返し、処理対象の分割文字列が条件を満たさない場合(S209:No)、S210を実行することなく、S206以降を繰り返す。一方、規則処理部50は、全業務ログについて分類規則の生成処理が終了した場合(S206:Yes)、処理を終了する。
[効果]
上述したように、分類装置10は、各文字列の出現頻度を、その文字列を含む業務ログの分類先の分布をもとに補正し、その出現頻度情報を利用してテキスト分割を行うことにより、後段の業務内容分類に適した単位の文字列を特徴語として取得することができ、その特徴語を使った規則を使うことによって分類精度が向上する。すなわち、分類装置10は、テキストデータの分割の段階で後段の分類を考慮し、各文字列による分類先の分布(ばらつき)を利用して特徴語を抽出することにより、分類精度の高い分類規則を生成することができる。
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。
[時刻情報の採用]
例えば、上記実施例における単語、文字列、分割文字列などの「出現頻度」は、「業務発生時間の総和(総業務時間)」と置き換えることもできる。
[装置の分割]
上記実施例では、分類装置10が分類規則の学習と学習後の分類とを実行する例を説明したが、これに限定されるものではなく、学習と学習後の分類とを別々の装置で実行することもできる。
[システム]
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。また、実施例で説明した具体例、分布、数値などは、あくまで一例であり、任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[ハードウェア]
図14は、ハードウェア構成例を説明する図である。図14に示すように、分類装置10は、通信装置10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。また、図14に示した各部は、バス等で相互に接続される。
通信装置10aは、ネットワークインタフェースカードなどであり、他のサーバとの通信を行う。HDD10bは、図2に示した機能を動作させるプログラムやDBを記憶する。
プロセッサ10dは、図2に示した各処理部と同様の処理を実行するプログラムをHDD10b等から読み出してメモリ10cに展開することで、図2等で説明した各機能を実行するプロセスを動作させる。すなわち、このプロセスは、分類装置10が有する各処理部と同様の機能を実行する。具体的には、プロセッサ10dは、出現頻度処理部40と規則処理部50等と同様の機能を有するプログラムをHDD10b等から読み出す。そして、プロセッサ10dは、出現頻度処理部40と規則処理部50等と同様の処理を実行するプロセスを実行する。
このように分類装置10は、プログラムを読み出して実行することで分類方法を実行する情報処理装置として動作する。また、分類装置10は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、分類装置10によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。
このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD−ROM、MO(Magneto−Optical disk)、DVD(Digital Versatile Disc)などのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することができる。
10 分類装置
11 通信部
12 記憶部
13 業務ログDB
14 業務分類DB
15 文字列DB
16 分類規則DB
20 制御部
30 学習部
40 出現頻度処理部
41 形態素解析部
42 頻度算出部
43 頻度補正部
50 規則処理部
51 テキスト分割部
52 規則生成部
60 分類部

Claims (7)

  1. コンピュータに、
    テキストデータを単語分割して得られる単語を連結した複数の連結文字列を抽出し、
    前記複数の連結文字列それぞれについて、前記テキストデータを含む複数のテキストデータそれぞれが分類される分類カテゴリを記憶する記憶部を参照し、前記複数のテキストデータのうち、当該連結文字列を含むテキストデータの分類先の分布を算出し、
    前記分類先の分布に基づいて、前記複数の連結文字列から特徴語を選択し、
    前記テキストデータが分類される分類カテゴリと前記特徴語とを対応付けた分類規則を生成する
    処理を実行させることを特徴とする分類規則生成プログラム。
  2. 前記複数の連結文字列それぞれについて、当該連結文字列が前記複数のテキストデータ内に出現する出現頻度を算出し、
    前記複数の連結文字列それぞれについて算出された前記分類先の分布に基づいて、前記複数の連結文字列それぞれの前記出現頻度を補正する、処理を前記コンピュータに実行させ、
    前記選択する処理は、前記複数の連結文字列それぞれの補正後の出現頻度に基づき、前記特徴語を選択する、請求項1に記載の分類規則生成プログラム。
  3. 前記算出する処理は、前記複数の連結文字列それぞれについて、補正前の前記出現頻度および前記分類先の分布に基づいてエントロピーを算出し、
    前記補正する処理は、前記複数の連結文字列それぞれの前記出現頻度を前記エントロピーに基づき補正することを特徴とする請求項2に記載の分類規則生成プログラム。
  4. 前記複数の連結文字列それぞれの補正後の出現頻度に基づき、前記テキストデータを分割する位置を特定し、
    特定された位置に基づき、前記複数の連結文字列のいずれかが含まれるように前記テキストデータを分割して、複数の分割文字列を抽出する、処理を前記コンピュータに実行させ、
    前記選択する処理は、前記複数の分割文字列のうち、前記出現頻度が閾値以上かつ前記エントロピーが閾値以下の分割文字列を前記特徴語として選択することを特徴とする請求項3に記載の分類規則生成プログラム。
  5. 業務ログが発生した場合に、前記業務ログに含まれる前記特徴語を特定し、
    前記分類規則を参照し、特定した前記特徴語と対応付けられる前記分類カテゴリを特定し、
    特定した前記分類カテゴリに前記業務ログを分類する、処理を前記コンピュータに実行させることを特徴とする請求項1から4のいずれか一つに記載の分類規則生成プログラム。
  6. コンピュータが、
    テキストデータを単語分割して得られる単語を連結した複数の連結文字列を抽出し、
    前記複数の連結文字列それぞれについて、前記テキストデータを含む複数のテキストデータそれぞれが分類される分類カテゴリを記憶する記憶部を参照し、前記複数のテキストデータのうち、当該連結文字列を含むテキストデータの分類先の分布を算出し、
    前記分類先の分布に基づいて、前記複数の連結文字列から特徴語を選択し、
    前記テキストデータが分類される分類カテゴリと前記特徴語とを対応付けた分類規則を生成する
    処理を実行することを特徴とする分類規則生成方法。
  7. テキストデータを単語分割して得られる単語を連結した複数の連結文字列を抽出する抽出部と、
    前記複数の連結文字列それぞれについて、前記テキストデータを含む複数のテキストデータそれぞれが分類される分類カテゴリを記憶する記憶部を参照し、前記複数のテキストデータのうち、当該連結文字列を含むテキストデータの分類先の分布を算出する算出部と、
    前記分類先の分布に基づいて、前記複数の連結文字列から特徴語を選択する選択部と、
    前記テキストデータが分類される分類カテゴリと前記特徴語とを対応付けた分類規則を生成する生成部と
    を有することを特徴とする分類規則生成装置。
JP2020540004A 2018-08-31 2018-08-31 分類規則生成プログラム、分類規則生成方法および分類規則生成装置 Active JP7044162B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/032449 WO2020044558A1 (ja) 2018-08-31 2018-08-31 分類規則生成プログラム、分類規則生成方法および分類規則生成装置

Publications (2)

Publication Number Publication Date
JPWO2020044558A1 true JPWO2020044558A1 (ja) 2021-04-30
JP7044162B2 JP7044162B2 (ja) 2022-03-30

Family

ID=69642878

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020540004A Active JP7044162B2 (ja) 2018-08-31 2018-08-31 分類規則生成プログラム、分類規則生成方法および分類規則生成装置

Country Status (2)

Country Link
JP (1) JP7044162B2 (ja)
WO (1) WO2020044558A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7472652B2 (ja) 2020-05-21 2024-04-23 富士通株式会社 分類プログラム、分類方法、及び分類装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003085170A (ja) * 2001-09-11 2003-03-20 Nippon Hoso Kyokai <Nhk> 定型文クラスタリング装置および方法
WO2011071174A1 (ja) * 2009-12-10 2011-06-16 日本電気株式会社 テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラム
JP2011123706A (ja) * 2009-12-11 2011-06-23 Advanced Media Inc 文章分類装置および文章分類方法
WO2014208298A1 (ja) * 2013-06-28 2014-12-31 日本電気株式会社 文章分類装置、文章分類方法、及び記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003085170A (ja) * 2001-09-11 2003-03-20 Nippon Hoso Kyokai <Nhk> 定型文クラスタリング装置および方法
WO2011071174A1 (ja) * 2009-12-10 2011-06-16 日本電気株式会社 テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラム
JP2011123706A (ja) * 2009-12-11 2011-06-23 Advanced Media Inc 文章分類装置および文章分類方法
WO2014208298A1 (ja) * 2013-06-28 2014-12-31 日本電気株式会社 文章分類装置、文章分類方法、及び記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
石田 栄美: "テキスト自動分類の概要", 情報の科学と技術, vol. 第56巻,第10号, JPN6018045397, 1 October 2006 (2006-10-01), JP, pages 469 - 474, ISSN: 0004657712 *

Also Published As

Publication number Publication date
JP7044162B2 (ja) 2022-03-30
WO2020044558A1 (ja) 2020-03-05

Similar Documents

Publication Publication Date Title
US10318617B2 (en) Methods and apparatus for extraction of content from an email or email threads for use in providing implicit profile attributes and content for recommendation engines
US20070043690A1 (en) Method and apparatus of supporting creation of classification rules
US9584589B2 (en) Friend recommendation method, apparatus and storage medium
US8832126B2 (en) Custodian suggestion for efficient legal e-discovery
KR20110026218A (ko) 문자 메시지 입력 장치 및 방법 그리고 그를 위한 프로그램을 기록한 기록 매체
CN102945246B (zh) 网络信息数据的处理方法及装置
US20130035929A1 (en) Information processing apparatus and method
US8433666B2 (en) Link information extracting apparatus, link information extracting method, and recording medium
US20120185417A1 (en) Apparatus and method for generating activity history
JP7044162B2 (ja) 分類規則生成プログラム、分類規則生成方法および分類規則生成装置
US6921266B2 (en) Training-curriculum creating system, server, method and computer program for creating a training curriculum
CN112567364B (zh) 知识信息创建支援装置
US10599658B2 (en) Search device, search method, and non-transitory computer readable medium for performing a search for candidate experts and displaying results of the search
JPWO2020111074A1 (ja) メール分類装置、メール分類方法、およびコンピュータプログラム
JP6641777B2 (ja) 情報処理装置及びプログラム
JP2010055236A (ja) 文抽出および文短縮を組合せた文書要約方法、文書要約装置、文書要約プログラムおよびそのプログラムを記録した記録媒体
CN111008285A (zh) 一种基于论文关键属性网络的作者消歧方法
JP2011154469A (ja) パターン抽出装置、パターン抽出方法及びプログラム
CN115577147A (zh) 可视化情报图谱检索方法、装置、电子设备及存储介质
JP6457986B2 (ja) メッセージ分類システム、メッセージ分類方法及びプログラム
JP2001022727A (ja) テキスト分類学習方法及び装置及びテキスト分類学習プログラムを格納した記憶媒体
JP7031232B2 (ja) 検索システム、検索方法および検索プログラム
WO2020017037A1 (ja) ログ分析装置、ログ分析方法、プログラム
JP2012022443A (ja) 文書検索装置、文書検索方法及び文書検索プログラム
CN117522485B (zh) 一种广告推荐方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201019

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220228

R150 Certificate of patent or registration of utility model

Ref document number: 7044162

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150