JPWO2016013209A1 - 文集合抽出システム、方法およびプログラム - Google Patents
文集合抽出システム、方法およびプログラム Download PDFInfo
- Publication number
- JPWO2016013209A1 JPWO2016013209A1 JP2016535794A JP2016535794A JPWO2016013209A1 JP WO2016013209 A1 JPWO2016013209 A1 JP WO2016013209A1 JP 2016535794 A JP2016535794 A JP 2016535794A JP 2016535794 A JP2016535794 A JP 2016535794A JP WO2016013209 A1 JPWO2016013209 A1 JP WO2016013209A1
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- sentences
- similar
- sentence set
- specific
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
図1は、本発明による文集合抽出システムの第1の実施形態の構成例を示すブロック図である。本実施形態の文集合抽出システムは、分析対象文入力部11と、類似文集合生成部12と、類似文集合抽出部13とを備えている。
含意による類似文集合2:「待ち時間が長い、画面切り替えで待たされる」
図6は、本発明による文集合抽出システムの第2の実施形態の構成例を示すブロック図である。なお、第1の実施形態と同様の構成については、図1と同一の符号を付し、説明を省略する。本実施形態の文集合抽出システムは、分析対象文入力部11と、分析文集合生成部22と、類似文集合特定部23とを備えている。
12 類似文集合生成部
13 類似文集合抽出部
22 分析文集合生成部
23 類似文集合特定部
Claims (16)
- 分析対象文の集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成する類似文集合生成部と、
分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、前記類似文集合に属する文の中から当該特定文抽出器で抽出されない1つ以上の文を除外類似文集合として抽出する類似文集合抽出部とを備えた
ことを特徴とする文集合抽出システム。 - 類似文集合抽出部は、特定文抽出器で抽出されない文を含む1つ以上の類似文集合を纏めた新たな類似文集合に含まれる文の数が所定の条件を満たす類似文集合を抽出する
請求項1記載の文集合抽出システム。 - 類似文集合抽出部は、特定文抽出器で抽出されない文を含む類似文集合をそれぞれ特定し、特定された類似文集合に含まれる文の数が所定の条件を満たす類似文集合を抽出する
請求項1記載の文集合抽出システム。 - 類似文集合生成部は、分析対象文同士の同義または含意関係に基づいて、分析対象文の集合をクラスタリングすることにより、類似文集合を作成する
請求項1から請求項3のうちのいずれか1項に記載の文集合抽出システム。 - 類似文集合抽出部は、特定文抽出器を用いて抽出される文の数を類似文集合ごとに集計し、各特徴文抽出器で抽出された文の数および当該特定文抽出器で抽出されなかった文の数を類似文集合ごとに出力する
請求項1から請求項4のうちのいずれか1項に記載の文集合抽出システム。 - 入力される文の集合から、分析対象文を抽出する分析対象文入力部を備えた
請求項1から請求項5のうちのいずれか1項に記載の文集合抽出システム。 - 分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、当該分析対象文の集合から前記特定文抽出器で抽出される文を除外した分析文集合を生成する分析文集合生成部と、
前記分析文集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成し、含まれる文の数が所定の条件を満たす類似文集合を特定する類似文集合特定部とを備えた
ことを特徴とする文集合抽出システム。 - 類似文集合特定部は、分析対象文同士の同義または含意関係に基づいて、分析文集合をクラスタリングすることにより、類似文集合を作成する
請求項7記載の文集合抽出システム。 - 分析対象文の集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成し、
分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、前記類似文集合に属する文の中から当該特定文抽出器で抽出されない1つ以上の文を除外類似文集合として抽出する
ことを特徴とする文集合抽出方法。 - 特定文抽出器で抽出されない文を含む1つ以上の類似文集合を纏めた新たな類似文集合に含まれる文の数が所定の条件を満たす類似文集合を抽出する
請求項9記載の文集合抽出方法。 - 分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、当該分析対象文の集合から前記特定文抽出器で抽出される文を除外した分析文集合を生成し、
前記分析文集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成し、
含まれる文の数が所定の条件を満たす類似文集合を特定する
ことを特徴とする文集合抽出方法。 - 分析対象文同士の同義または含意関係に基づいて、分析文集合をクラスタリングすることにより、類似文集合を作成する
請求項11記載の文集合抽出方法。 - コンピュータに、
分析対象文の集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成する類似文集合生成処理、および、
分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、前記類似文集合に属する文の中から当該特定文抽出器で抽出されない1つ以上の文を除外類似文集合として抽出する類似文集合抽出処理
を実行させるための文集合抽出プログラム。 - コンピュータに、
類似文集合抽出処理で、特定文抽出器で抽出されない文を含む1つ以上の類似文集合を纏めた新たな類似文集合に含まれる文の数が所定の条件を満たす類似文集合を抽出させる
請求項13記載の文集合抽出プログラム。 - コンピュータに、
分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、当該分析対象文の集合から前記特定文抽出器で抽出される文を除外した分析文集合を生成する分析文集合生成処理、および、
前記分析文集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成し、含まれる文の数が所定の条件を満たす類似文集合を特定する類似文集合特定処理
を実行させるための文集合抽出プログラム。 - コンピュータに、
類似文集合特定処理で、分析対象文同士の同義または含意関係に基づいて、分析文集合をクラスタリングさせることにより、類似文集合を作成させる
請求項15記載の文集合抽出プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014149425 | 2014-07-23 | ||
JP2014149425 | 2014-07-23 | ||
PCT/JP2015/003652 WO2016013209A1 (ja) | 2014-07-23 | 2015-07-21 | 文集合抽出システム、方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2016013209A1 true JPWO2016013209A1 (ja) | 2017-04-27 |
JP6536580B2 JP6536580B2 (ja) | 2019-07-03 |
Family
ID=55162753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016535794A Active JP6536580B2 (ja) | 2014-07-23 | 2015-07-21 | 文集合抽出システム、方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20170220585A1 (ja) |
JP (1) | JP6536580B2 (ja) |
WO (1) | WO2016013209A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11328025B1 (en) | 2019-04-26 | 2022-05-10 | Bank Of America Corporation | Validating mappings between documents using machine learning |
US11783005B2 (en) | 2019-04-26 | 2023-10-10 | Bank Of America Corporation | Classifying and mapping sentences using machine learning |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003141132A (ja) * | 2001-10-30 | 2003-05-16 | Nippon Yunishisu Kk | 情報処理装置およびその方法 |
JP2010267141A (ja) * | 2009-05-15 | 2010-11-25 | Toshiba Corp | 文書分類装置およびプログラム |
WO2013038774A1 (ja) * | 2011-09-15 | 2013-03-21 | 株式会社東芝 | 文書分類装置、方法およびプログラム |
-
2015
- 2015-07-21 JP JP2016535794A patent/JP6536580B2/ja active Active
- 2015-07-21 US US15/328,199 patent/US20170220585A1/en not_active Abandoned
- 2015-07-21 WO PCT/JP2015/003652 patent/WO2016013209A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003141132A (ja) * | 2001-10-30 | 2003-05-16 | Nippon Yunishisu Kk | 情報処理装置およびその方法 |
JP2010267141A (ja) * | 2009-05-15 | 2010-11-25 | Toshiba Corp | 文書分類装置およびプログラム |
WO2013038774A1 (ja) * | 2011-09-15 | 2013-03-21 | 株式会社東芝 | 文書分類装置、方法およびプログラム |
Non-Patent Citations (2)
Title |
---|
宮部 泰成: "ユーザの意図を反映した対話型文書分類技術", 東芝レビュー, vol. 第64巻,第2号, JPN6015042223, 1 February 2009 (2009-02-01), pages 58 - 59, ISSN: 0003998149 * |
後藤 和之、外2名: "企業の情報と知識の利活用を促進する対話型文書分類システム", 東芝レビュー, vol. 第65巻,第2号, JPN6015042224, 1 February 2010 (2010-02-01), pages 60 - 63, ISSN: 0003998150 * |
Also Published As
Publication number | Publication date |
---|---|
US20170220585A1 (en) | 2017-08-03 |
JP6536580B2 (ja) | 2019-07-03 |
WO2016013209A1 (ja) | 2016-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI636452B (zh) | 語音識別方法及系統 | |
TWI643076B (zh) | 金融非結構化文本分析系統及其方法 | |
JP2020074193A (ja) | サーチ方法、装置、設備および不揮発性計算機メモリ | |
CN113836314B (zh) | 知识图谱构建方法、装置、设备以及存储介质 | |
JP2024507902A (ja) | 情報検索方法、装置、電子機器および記憶媒体 | |
JP7309811B2 (ja) | データ注釈方法、装置、電子機器および記憶媒体 | |
CN113627132B (zh) | 数据去重标记码生成方法、系统、电子设备及存储介质 | |
CN109582967B (zh) | 舆情摘要提取方法、装置、设备及计算机可读存储介质 | |
JP2013214148A (ja) | メッセージ変換装置、及びメッセージ変換プログラム | |
JP6536580B2 (ja) | 文集合抽出システム、方法およびプログラム | |
CN112148841B (zh) | 一种对象分类以及分类模型构建方法和装置 | |
EP3370136A1 (en) | Input data processing method, apparatus and device, and non-volatile computer storage medium | |
JPWO2014064777A1 (ja) | 文書評価支援システム、及び文書評価支援方法 | |
WO2015016133A1 (ja) | 情報管理装置及び情報管理方法 | |
JP6642429B2 (ja) | テキスト処理システム、テキスト処理方法およびテキスト処理プログラム | |
JP5162215B2 (ja) | データ処理装置、データ処理方法、および、プログラム | |
CN106462614B (zh) | 信息分析系统、信息分析方法以及信息分析程序 | |
JP6190341B2 (ja) | データ生成装置、データ生成方法、及びプログラム | |
JP5954742B2 (ja) | 文書を検索する装置及び方法 | |
CN113656443B (zh) | 数据拆解方法、装置、电子设备和存储介质 | |
JP5642229B2 (ja) | 重要性判定システム、重要性判定方法及びコンピュータプログラム | |
JP5761033B2 (ja) | 文書分析装置、文書分析方法、およびプログラム | |
JP2009245181A (ja) | 分散型全文検索システム、分散型全文検索方法、分散型全文検索プログラム及びそのプログラムを記録した記録媒体 | |
JP5698188B2 (ja) | 評価表現辞書作成支援装置、方法、及びプログラム | |
CN115203428A (zh) | 一种知识图谱构建方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170124 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180604 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190319 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190419 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190507 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190520 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6536580 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |