JPWO2020044558A1 - 分類規則生成プログラム、分類規則生成方法および分類規則生成装置 - Google Patents
分類規則生成プログラム、分類規則生成方法および分類規則生成装置 Download PDFInfo
- Publication number
- JPWO2020044558A1 JPWO2020044558A1 JP2020540004A JP2020540004A JPWO2020044558A1 JP WO2020044558 A1 JPWO2020044558 A1 JP WO2020044558A1 JP 2020540004 A JP2020540004 A JP 2020540004A JP 2020540004 A JP2020540004 A JP 2020540004A JP WO2020044558 A1 JPWO2020044558 A1 JP WO2020044558A1
- Authority
- JP
- Japan
- Prior art keywords
- classification
- text data
- character strings
- character string
- concatenated character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
図1は、実施例1にかかる分類装置10の全体構成例を説明する図である。図1に示す分類装置10は、ログ情報などのテキストデータを分割して特徴語を抽出し、特徴語と予め用意されたカテゴリとを対応付ける業務分類モデルを生成し、生成した業務分類モデルにしたがって、ログ情報をカテゴリに分類する分類規則生成装置の一例である。
図2は、実施例1にかかる分類装置10の機能構成を示す機能ブロック図である。図2に示すように、分類装置10は、通信部11、記憶部12、制御部20を有する。
次に、上述した各処理の流れについて説明する。ここでは、出現頻度処理の流れと規則生成処理の流れとについて説明する。なお、各処理や各処理内のステップは、矛盾のない範囲内で処理順番等を入れ替えることができる。
図12は、出現頻度処理の流れを示すフローチャートである。図12に示すように、出現頻度処理部40は、業務ログをすべて取得し(S101)、全業務ログについて単語の分割処理が実行されたか否かを判定する(S102)。
図13は、規則生成処理の流れを示すフローチャートである。図13に示すように、規則処理部50は、業務ログをすべて取得し(S201)、全業務ログについて文字列の抽出処理が実行されたか否かを判定する(S202)。
上述したように、分類装置10は、各文字列の出現頻度を、その文字列を含む業務ログの分類先の分布をもとに補正し、その出現頻度情報を利用してテキスト分割を行うことにより、後段の業務内容分類に適した単位の文字列を特徴語として取得することができ、その特徴語を使った規則を使うことによって分類精度が向上する。すなわち、分類装置10は、テキストデータの分割の段階で後段の分類を考慮し、各文字列による分類先の分布(ばらつき)を利用して特徴語を抽出することにより、分類精度の高い分類規則を生成することができる。
例えば、上記実施例における単語、文字列、分割文字列などの「出現頻度」は、「業務発生時間の総和(総業務時間)」と置き換えることもできる。
上記実施例では、分類装置10が分類規則の学習と学習後の分類とを実行する例を説明したが、これに限定されるものではなく、学習と学習後の分類とを別々の装置で実行することもできる。
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。また、実施例で説明した具体例、分布、数値などは、あくまで一例であり、任意に変更することができる。
図14は、ハードウェア構成例を説明する図である。図14に示すように、分類装置10は、通信装置10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。また、図14に示した各部は、バス等で相互に接続される。
11 通信部
12 記憶部
13 業務ログDB
14 業務分類DB
15 文字列DB
16 分類規則DB
20 制御部
30 学習部
40 出現頻度処理部
41 形態素解析部
42 頻度算出部
43 頻度補正部
50 規則処理部
51 テキスト分割部
52 規則生成部
60 分類部
Claims (7)
- コンピュータに、
テキストデータを単語分割して得られる単語を連結した複数の連結文字列を抽出し、
前記複数の連結文字列それぞれについて、前記テキストデータを含む複数のテキストデータそれぞれが分類される分類カテゴリを記憶する記憶部を参照し、前記複数のテキストデータのうち、当該連結文字列を含むテキストデータの分類先の分布を算出し、
前記分類先の分布に基づいて、前記複数の連結文字列から特徴語を選択し、
前記テキストデータが分類される分類カテゴリと前記特徴語とを対応付けた分類規則を生成する
処理を実行させることを特徴とする分類規則生成プログラム。 - 前記複数の連結文字列それぞれについて、当該連結文字列が前記複数のテキストデータ内に出現する出現頻度を算出し、
前記複数の連結文字列それぞれについて算出された前記分類先の分布に基づいて、前記複数の連結文字列それぞれの前記出現頻度を補正する、処理を前記コンピュータに実行させ、
前記選択する処理は、前記複数の連結文字列それぞれの補正後の出現頻度に基づき、前記特徴語を選択する、請求項1に記載の分類規則生成プログラム。 - 前記算出する処理は、前記複数の連結文字列それぞれについて、補正前の前記出現頻度および前記分類先の分布に基づいてエントロピーを算出し、
前記補正する処理は、前記複数の連結文字列それぞれの前記出現頻度を前記エントロピーに基づき補正することを特徴とする請求項2に記載の分類規則生成プログラム。 - 前記複数の連結文字列それぞれの補正後の出現頻度に基づき、前記テキストデータを分割する位置を特定し、
特定された位置に基づき、前記複数の連結文字列のいずれかが含まれるように前記テキストデータを分割して、複数の分割文字列を抽出する、処理を前記コンピュータに実行させ、
前記選択する処理は、前記複数の分割文字列のうち、前記出現頻度が閾値以上かつ前記エントロピーが閾値以下の分割文字列を前記特徴語として選択することを特徴とする請求項3に記載の分類規則生成プログラム。 - 業務ログが発生した場合に、前記業務ログに含まれる前記特徴語を特定し、
前記分類規則を参照し、特定した前記特徴語と対応付けられる前記分類カテゴリを特定し、
特定した前記分類カテゴリに前記業務ログを分類する、処理を前記コンピュータに実行させることを特徴とする請求項1から4のいずれか一つに記載の分類規則生成プログラム。 - コンピュータが、
テキストデータを単語分割して得られる単語を連結した複数の連結文字列を抽出し、
前記複数の連結文字列それぞれについて、前記テキストデータを含む複数のテキストデータそれぞれが分類される分類カテゴリを記憶する記憶部を参照し、前記複数のテキストデータのうち、当該連結文字列を含むテキストデータの分類先の分布を算出し、
前記分類先の分布に基づいて、前記複数の連結文字列から特徴語を選択し、
前記テキストデータが分類される分類カテゴリと前記特徴語とを対応付けた分類規則を生成する
処理を実行することを特徴とする分類規則生成方法。 - テキストデータを単語分割して得られる単語を連結した複数の連結文字列を抽出する抽出部と、
前記複数の連結文字列それぞれについて、前記テキストデータを含む複数のテキストデータそれぞれが分類される分類カテゴリを記憶する記憶部を参照し、前記複数のテキストデータのうち、当該連結文字列を含むテキストデータの分類先の分布を算出する算出部と、
前記分類先の分布に基づいて、前記複数の連結文字列から特徴語を選択する選択部と、
前記テキストデータが分類される分類カテゴリと前記特徴語とを対応付けた分類規則を生成する生成部と
を有することを特徴とする分類規則生成装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/032449 WO2020044558A1 (ja) | 2018-08-31 | 2018-08-31 | 分類規則生成プログラム、分類規則生成方法および分類規則生成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020044558A1 true JPWO2020044558A1 (ja) | 2021-04-30 |
JP7044162B2 JP7044162B2 (ja) | 2022-03-30 |
Family
ID=69642878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020540004A Active JP7044162B2 (ja) | 2018-08-31 | 2018-08-31 | 分類規則生成プログラム、分類規則生成方法および分類規則生成装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7044162B2 (ja) |
WO (1) | WO2020044558A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7472652B2 (ja) | 2020-05-21 | 2024-04-23 | 富士通株式会社 | 分類プログラム、分類方法、及び分類装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003085170A (ja) * | 2001-09-11 | 2003-03-20 | Nippon Hoso Kyokai <Nhk> | 定型文クラスタリング装置および方法 |
WO2011071174A1 (ja) * | 2009-12-10 | 2011-06-16 | 日本電気株式会社 | テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラム |
JP2011123706A (ja) * | 2009-12-11 | 2011-06-23 | Advanced Media Inc | 文章分類装置および文章分類方法 |
WO2014208298A1 (ja) * | 2013-06-28 | 2014-12-31 | 日本電気株式会社 | 文章分類装置、文章分類方法、及び記録媒体 |
-
2018
- 2018-08-31 WO PCT/JP2018/032449 patent/WO2020044558A1/ja active Application Filing
- 2018-08-31 JP JP2020540004A patent/JP7044162B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003085170A (ja) * | 2001-09-11 | 2003-03-20 | Nippon Hoso Kyokai <Nhk> | 定型文クラスタリング装置および方法 |
WO2011071174A1 (ja) * | 2009-12-10 | 2011-06-16 | 日本電気株式会社 | テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラム |
JP2011123706A (ja) * | 2009-12-11 | 2011-06-23 | Advanced Media Inc | 文章分類装置および文章分類方法 |
WO2014208298A1 (ja) * | 2013-06-28 | 2014-12-31 | 日本電気株式会社 | 文章分類装置、文章分類方法、及び記録媒体 |
Non-Patent Citations (1)
Title |
---|
石田 栄美: "テキスト自動分類の概要", 情報の科学と技術, vol. 第56巻,第10号, JPN6018045397, 1 October 2006 (2006-10-01), JP, pages 469 - 474, ISSN: 0004657712 * |
Also Published As
Publication number | Publication date |
---|---|
JP7044162B2 (ja) | 2022-03-30 |
WO2020044558A1 (ja) | 2020-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10318617B2 (en) | Methods and apparatus for extraction of content from an email or email threads for use in providing implicit profile attributes and content for recommendation engines | |
US20070043690A1 (en) | Method and apparatus of supporting creation of classification rules | |
US9584589B2 (en) | Friend recommendation method, apparatus and storage medium | |
US8832126B2 (en) | Custodian suggestion for efficient legal e-discovery | |
KR20110026218A (ko) | 문자 메시지 입력 장치 및 방법 그리고 그를 위한 프로그램을 기록한 기록 매체 | |
CN102945246B (zh) | 网络信息数据的处理方法及装置 | |
US20130035929A1 (en) | Information processing apparatus and method | |
US8433666B2 (en) | Link information extracting apparatus, link information extracting method, and recording medium | |
US20120185417A1 (en) | Apparatus and method for generating activity history | |
JP7044162B2 (ja) | 分類規則生成プログラム、分類規則生成方法および分類規則生成装置 | |
US6921266B2 (en) | Training-curriculum creating system, server, method and computer program for creating a training curriculum | |
CN112567364B (zh) | 知识信息创建支援装置 | |
US10599658B2 (en) | Search device, search method, and non-transitory computer readable medium for performing a search for candidate experts and displaying results of the search | |
JPWO2020111074A1 (ja) | メール分類装置、メール分類方法、およびコンピュータプログラム | |
JP6641777B2 (ja) | 情報処理装置及びプログラム | |
JP2010055236A (ja) | 文抽出および文短縮を組合せた文書要約方法、文書要約装置、文書要約プログラムおよびそのプログラムを記録した記録媒体 | |
CN111008285A (zh) | 一种基于论文关键属性网络的作者消歧方法 | |
JP2011154469A (ja) | パターン抽出装置、パターン抽出方法及びプログラム | |
CN115577147A (zh) | 可视化情报图谱检索方法、装置、电子设备及存储介质 | |
JP6457986B2 (ja) | メッセージ分類システム、メッセージ分類方法及びプログラム | |
JP2001022727A (ja) | テキスト分類学習方法及び装置及びテキスト分類学習プログラムを格納した記憶媒体 | |
JP7031232B2 (ja) | 検索システム、検索方法および検索プログラム | |
WO2020017037A1 (ja) | ログ分析装置、ログ分析方法、プログラム | |
JP2012022443A (ja) | 文書検索装置、文書検索方法及び文書検索プログラム | |
CN117522485B (zh) | 一种广告推荐方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201019 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220203 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220215 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220228 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7044162 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |