JPWO2015040860A1 - 分類辞書生成装置、分類辞書生成方法及びプログラム - Google Patents
分類辞書生成装置、分類辞書生成方法及びプログラム Download PDFInfo
- Publication number
- JPWO2015040860A1 JPWO2015040860A1 JP2015537559A JP2015537559A JPWO2015040860A1 JP WO2015040860 A1 JPWO2015040860 A1 JP WO2015040860A1 JP 2015537559 A JP2015537559 A JP 2015537559A JP 2015537559 A JP2015537559 A JP 2015537559A JP WO2015040860 A1 JPWO2015040860 A1 JP WO2015040860A1
- Authority
- JP
- Japan
- Prior art keywords
- lower limit
- classification dictionary
- value
- classification
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明の第1の実施形態における分類辞書作成装置は、カテゴリが既知である学習データから識別関数を算出し、算出した識別関数における下限値を修正して、文書をカテゴリに分類するための分類辞書を作成する。
<第2の実施形態>
本発明の第2の実施形態について説明する。図9は、本発明の第2の実施形態における分類辞書生成装置10’の構成例を示す図である。なお、本発明の第2の実施形態において、本発明の第1の実施形態と同様の構成については、説明を省略する。
∀j α<wj (α<0) (2)
数式(1)の最小化を数式(2)の制約で最適化するためには、例えば、L−BFGS−Bなど、box constraint optimizationを扱える最適化のアルゴリズムを用いることができる。図7に示す下限情報のID(c)のように、数式(2)のαを−1.0(下限値)とした場合、分類辞書生成部13’は、図8の(c)が示す分類辞書、即ち「確認1.5,ください1.25,田中−0.2,山田−1.0,願い−1.0,・・・」を生成する。つまり、分類辞書生成部13’は、重みベクトルの各次元の値の下限値を制約とする制約付き最適化問題として最適化することで重みベクトルを算出し、算出した重みベクトルから分類辞書を生成する。
<第3の実施形態>
本発明の第3の実施形態について説明する。図10は、本発明の第3の実施形態における、分類辞書生成装置100の構成例を示す図である。なお、本発明の第3の実施形態において、上記各実施形態と同様の構成については、説明を省略する。
2 RAM
3 記憶装置
4 通信インターフェース
5 入力装置
6 出力装置
10 分類辞書生成装置
10’ 分類辞書生成装置
11 制御部
11’ 制御部
12 識別関数算出部
13 分類辞書生成部
13’ 分類辞書生成部
14 インターフェース部
15 下限値記憶部
16 学習データ記憶部
17 分類辞書記憶部
100 分類辞書生成装置
110 制御部
Claims (10)
- 文書のカテゴリを分類するための分類辞書の次元の値の下限値を決定する下限情報を記憶する下限値記憶手段と、
前記カテゴリが既知である学習データに基づいて、前記分類辞書を生成する制御手段と、を備え、
前記制御手段は、前記下限値記憶手段に記憶された下限情報に基づいて、全ての前記次元の値が前記下限値以上となる分類辞書を生成する分類辞書生成装置。 - 前記学習データは、カテゴリ情報が付与された文書の集合を含み、
前記制御手段は、前記文書の集合の各文書に対して、前記各文書の内容を反映した特徴を抽出して特徴ベクトルを算出し、前記分類辞書の次元の値のうち、非目標カテゴリに対応する前記次元の値が前記下限値以上となる分類辞書を生成する請求項1に記載の分類辞書生成装置。 - 前記学習データから識別関数を算出する識別関数算出手段をさらに備え、
前記制御手段は、前記識別関数算出手段が算出した識別関数と、前記下限値記憶手段に記憶される下限情報とに基づいて、前記分類辞書を生成する請求項1又は2に記載の分類辞書生成装置。 - 前記下限値記憶手段は、前記識別関数の次元の値のうち、予め定められた前記下限値よりも小さい前記次元の値を前記下限値とする下限情報を記憶する請求項3に記載の分類辞書生成装置。
- 前記下限情報記憶手段は、前記識別関数の次元の値の最小値と0より大きく1未満の予め定められた割合との積により下限値を定め、当該下限値を前記識別関数の値とする下限情報を記憶する請求項3に記載の分類辞書生成装置。
- 前記学習データを記憶する学習データ記憶手段と前記分類辞書を記憶する分類辞書記憶手段をさらに備え、
前記制御手段は、前記分類辞書を前記分類辞書記憶手段に書き込む請求項1から5のいずれか1項に記載の分類辞書生成装置。 - 前記制御手段は、重みベクトルの各次元の値の下限値を制約とする制約付き最適化問題として最適化することで重みベクトルを算出し、算出した重みベクトルから前記分類辞書を生成する請求項1又は2に記載の分類辞書生成装置。
- 前記識別関数算出手段は、前記特徴として、文書中に出現する単語、複数単語から構成されるフレーズ、文節、部分文字列、2つ以上の単語や文節の係り受け関係、及び部分文字列、のうち少なくとも1つを用いて前記識別関数を算出する請求項3に記載の分類辞書生成装置。
- 文書のカテゴリを分類するための分類辞書の次元の値の下限値を決定する下限情報を記憶し、
前記カテゴリが既知である学習データと、前記記憶された下限情報とに基づいて、全ての前記次元の値が前記下限値以上となる分類辞書を生成する分類辞書生成方法。 - 文書のカテゴリを分類するための分類辞書の次元の値の下限値を決定する下限情報を記憶する処理と、
前記カテゴリが既知である学習データに基づいて、前記分類辞書を生成する処理と、をコンピュータに実行させ、
該分類辞書を生成する処理は、前記記憶された下限情報に基づいて、全ての前記次元の値が前記下限値以上となる分類辞書を生成する処理である、プログラムを記録するコンピュータで読み取り可能な記録媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013192674 | 2013-09-18 | ||
JP2013192674 | 2013-09-18 | ||
PCT/JP2014/004776 WO2015040860A1 (ja) | 2013-09-18 | 2014-09-17 | 分類辞書生成装置、分類辞書生成方法及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2015040860A1 true JPWO2015040860A1 (ja) | 2017-03-02 |
JP6436086B2 JP6436086B2 (ja) | 2018-12-12 |
Family
ID=52688524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015537559A Active JP6436086B2 (ja) | 2013-09-18 | 2014-09-17 | 分類辞書生成装置、分類辞書生成方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20160224654A1 (ja) |
JP (1) | JP6436086B2 (ja) |
WO (1) | WO2015040860A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200082282A1 (en) * | 2018-09-10 | 2020-03-12 | Purdue Research Foundation | Methods for inducing a covert misclassification |
CN110717040A (zh) * | 2019-09-18 | 2020-01-21 | 平安科技(深圳)有限公司 | 词典扩充方法及装置、电子设备、存储介质 |
US20230196034A1 (en) * | 2021-12-21 | 2023-06-22 | International Business Machines Corporation | Automatically integrating user translation feedback |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010009577A (ja) * | 2008-05-28 | 2010-01-14 | Ricoh Co Ltd | 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体 |
JP2010271800A (ja) * | 2009-05-19 | 2010-12-02 | Nippon Telegr & Teleph Corp <Ntt> | 回答文書分類装置、回答文書分類方法及びプログラム |
US20120209853A1 (en) * | 2006-01-23 | 2012-08-16 | Clearwell Systems, Inc. | Methods and systems to efficiently find similar and near-duplicate emails and files |
JP2013061718A (ja) * | 2011-09-12 | 2013-04-04 | Nippon Telegr & Teleph Corp <Ntt> | サポートベクタ選択装置、方法、及びプログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6192360B1 (en) * | 1998-06-23 | 2001-02-20 | Microsoft Corporation | Methods and apparatus for classifying text and for building a text classifier |
US8176004B2 (en) * | 2005-10-24 | 2012-05-08 | Capsilon Corporation | Systems and methods for intelligent paperless document management |
US20140105447A1 (en) * | 2012-10-15 | 2014-04-17 | Juked, Inc. | Efficient data fingerprinting |
-
2014
- 2014-09-17 US US14/915,797 patent/US20160224654A1/en not_active Abandoned
- 2014-09-17 WO PCT/JP2014/004776 patent/WO2015040860A1/ja active Application Filing
- 2014-09-17 JP JP2015537559A patent/JP6436086B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120209853A1 (en) * | 2006-01-23 | 2012-08-16 | Clearwell Systems, Inc. | Methods and systems to efficiently find similar and near-duplicate emails and files |
JP2010009577A (ja) * | 2008-05-28 | 2010-01-14 | Ricoh Co Ltd | 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体 |
JP2010271800A (ja) * | 2009-05-19 | 2010-12-02 | Nippon Telegr & Teleph Corp <Ntt> | 回答文書分類装置、回答文書分類方法及びプログラム |
JP2013061718A (ja) * | 2011-09-12 | 2013-04-04 | Nippon Telegr & Teleph Corp <Ntt> | サポートベクタ選択装置、方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20160224654A1 (en) | 2016-08-04 |
WO2015040860A1 (ja) | 2015-03-26 |
JP6436086B2 (ja) | 2018-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
GB2547068B (en) | Semantic natural language vector space | |
EP3549069B1 (en) | Neural network data entry system | |
AU2016256764B2 (en) | Semantic natural language vector space for image captioning | |
US9542477B2 (en) | Method of automated discovery of topics relatedness | |
WO2019174423A1 (zh) | 实体情感分析方法及相关装置 | |
AU2016256753A1 (en) | Image captioning using weak supervision and semantic natural language vector space | |
RU2583716C2 (ru) | Метод построения и обнаружения тематической структуры корпуса | |
JP5137567B2 (ja) | 検索フィルタリング装置及び検索フィルタリングプログラム | |
GB2544857A (en) | Multimedia document summarization | |
WO2014073206A1 (ja) | 情報処理装置、及び、情報処理方法 | |
US11669687B1 (en) | Systems and methods for natural language processing (NLP) model robustness determination | |
Varghese et al. | Supervised clustering for automated document classification and prioritization: A case study using toxicological abstracts | |
WO2016175785A1 (en) | Topic identification based on functional summarization | |
US20210133390A1 (en) | Conceptual graph processing apparatus and non-transitory computer readable medium | |
JP6436086B2 (ja) | 分類辞書生成装置、分類辞書生成方法及びプログラム | |
WO2023033942A1 (en) | Efficient index lookup using language-agnostic vectors and context vectors | |
JP2010061176A (ja) | テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム | |
JP7175244B2 (ja) | 分類装置、学習装置、分類方法及びプログラム | |
US20090319505A1 (en) | Techniques for extracting authorship dates of documents | |
KR102019752B1 (ko) | 컴퓨터 수행 가능한 ui/ux 전략제공방법 및 이를 수행하는 ui/ux 전략제공장치 | |
Doan et al. | Algorithm selection using performance and run time behavior | |
JP2014238626A (ja) | 文書分類装置 | |
WO2021065058A1 (ja) | 概念構造抽出装置、記憶媒体及び方法 | |
JP7323669B1 (ja) | オントロジー生成方法及び学習方法 | |
US20220092260A1 (en) | Information output apparatus, question generation apparatus, and non-transitory computer readable medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170809 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180731 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180927 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181016 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181029 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6436086 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |