JPWO2021070005A5 - - Google Patents
Download PDFInfo
- Publication number
- JPWO2021070005A5 JPWO2021070005A5 JP2022520298A JP2022520298A JPWO2021070005A5 JP WO2021070005 A5 JPWO2021070005 A5 JP WO2021070005A5 JP 2022520298 A JP2022520298 A JP 2022520298A JP 2022520298 A JP2022520298 A JP 2022520298A JP WO2021070005 A5 JPWO2021070005 A5 JP WO2021070005A5
- Authority
- JP
- Japan
- Prior art keywords
- clusters
- cluster
- topic model
- dominant
- seeding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims 9
- 238000010899 nucleation Methods 0.000 claims 4
- 239000013598 vector Substances 0.000 claims 3
- 238000004590 computer program Methods 0.000 claims 2
- 238000004138 cluster model Methods 0.000 claims 1
- 238000001514 detection method Methods 0.000 claims 1
Claims (10)
- プロセッサによる階層トピック・モデリングを使用して希少トピック検出を提供するための方法であって、
1つまたは複数のデータ・ソースから階層トピック・モデルを学習することと、
選択されたクラスタ内の1つまたは複数の支配的な語を、前記階層トピック・モデルを使用して反復的に除去することであって、前記支配的な語が、前記クラスタの1つまたは複数の主要なトピックと関係する、前記除去することと、
前記学習された階層トピック・モデルに、前記階層トピック・モデルを発展させるべく、1つもしくは複数の語、1つもしくは複数のN-gram、1つもしくは複数の句、1つもしくは複数のテキスト・スニペット、またはその組合せをシード設定することであって、前記除去された支配的な語が、前記シード設定が完了すると、復帰させられる、前記シード設定することと
を含む方法。 - 1つまたは複数の語ベクトルを生成することと、前記1つまたは複数の語ベクトルの各々をスコアリングすることとをさらに含む、請求項1に記載の方法。
- 前記1つまたは複数の語ベクトルから複数のクラスタを生成することをさらに含み、前記選択されたクラスタが、前記複数のクラスタから識別され、かつキング・クラスタであり、前記キング・クラスタが、前記複数のクラスタからの最大のクラスタである、請求項1に記載の方法。
- 前記選択されたクラスタを、反復の各回において複数のクラスタに分割することと、
前記複数のクラスタから代替の選択されたクラスタを、前記代替の選択されたクラスタ内の1つまたは複数の支配的な語を反復的に除去しながら識別することであって、前記代替の選択されたクラスタが、キング・クラスタであり、前記キング・クラスタが、前記複数のクラスタからの最大のクラスタである、前記識別することと
をさらに含む、請求項1に記載の方法。 - 前記階層トピック・モデルに既存のトピック・モデルをシード設定することをさらに含む、請求項1に記載の方法。
- 1つまたは複数のクラスタ・モデルにより複数のクラスタの各々にシード設定することをさらに含む、請求項1に記載の方法。
- 前記複数のクラスタの各々の間の1つまたは複数の差を、反復の各回において前記選択されたクラスタ内の1つまたは複数の支配的な語を反復的に除去しながら識別することをさらに含む、請求項1に記載の方法。
- 請求項1ないし7の何か一項に記載の方法を実行するプロセッサを含むシステム。
- プロセッサに、請求項1ないし7の何か一項に記載の方法を実行させるためのコンピュータ・プログラム。
- 請求項9に記載のコンピュータ・プログラムを記憶するコンピュータ読取可能記録媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/596,399 US20210103608A1 (en) | 2019-10-08 | 2019-10-08 | Rare topic detection using hierarchical clustering |
US16/596,399 | 2019-10-08 | ||
PCT/IB2020/059112 WO2021070005A1 (en) | 2019-10-08 | 2020-09-29 | Rare topic detection using hierarchical clustering |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2022552140A JP2022552140A (ja) | 2022-12-15 |
JPWO2021070005A5 true JPWO2021070005A5 (ja) | 2022-12-22 |
JP7539201B2 JP7539201B2 (ja) | 2024-08-23 |
Family
ID=75273583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022520298A Active JP7539201B2 (ja) | 2019-10-08 | 2020-09-29 | 階層クラスタリングを使用する希少トピック検出 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20210103608A1 (ja) |
JP (1) | JP7539201B2 (ja) |
KR (1) | KR20220050915A (ja) |
CN (1) | CN114424197A (ja) |
AU (1) | AU2020364386B2 (ja) |
GB (1) | GB2604276A (ja) |
WO (1) | WO2021070005A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11354345B2 (en) * | 2020-06-22 | 2022-06-07 | Jpmorgan Chase Bank, N.A. | Clustering topics for data visualization |
US11941038B2 (en) | 2022-05-19 | 2024-03-26 | International Business Machines Corporation | Transparent and controllable topic modeling |
WO2024173841A1 (en) * | 2023-02-16 | 2024-08-22 | Jpmorgan Chase Bank, N.A. | Systems and methods for seeded neural topic modeling |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7882127B2 (en) * | 2002-05-10 | 2011-02-01 | Oracle International Corporation | Multi-category support for apply output |
US7809704B2 (en) * | 2006-06-15 | 2010-10-05 | Microsoft Corporation | Combining spectral and probabilistic clustering |
US7912847B2 (en) * | 2007-02-20 | 2011-03-22 | Wright State University | Comparative web search system and method |
US20100153318A1 (en) * | 2008-11-19 | 2010-06-17 | Massachusetts Institute Of Technology | Methods and systems for automatically summarizing semantic properties from documents with freeform textual annotations |
US9031944B2 (en) * | 2010-04-30 | 2015-05-12 | Palo Alto Research Center Incorporated | System and method for providing multi-core and multi-level topical organization in social indexes |
US8843497B2 (en) * | 2012-02-09 | 2014-09-23 | Linkshare Corporation | System and method for association extraction for surf-shopping |
CN103927176B (zh) * | 2014-04-18 | 2017-02-22 | 扬州大学 | 一种基于层次主题模型的程序特征树的生成方法 |
CN103970865B (zh) * | 2014-05-08 | 2017-04-19 | 清华大学 | 基于种子词的微博文本层次主题发现方法及系统 |
US11989662B2 (en) * | 2014-10-10 | 2024-05-21 | San Diego State University Research Foundation | Methods and systems for base map and inference mapping |
US9697245B1 (en) * | 2015-12-30 | 2017-07-04 | International Business Machines Corporation | Data-dependent clustering of geospatial words |
US11645317B2 (en) * | 2016-07-26 | 2023-05-09 | Qualtrics, Llc | Recommending topic clusters for unstructured text documents |
US10997509B2 (en) * | 2017-02-14 | 2021-05-04 | Cognitive Scale, Inc. | Hierarchical topic machine learning operation |
CN109544632B (zh) * | 2018-11-05 | 2021-08-03 | 浙江工业大学 | 一种基于层次主题模型的语义slam对象关联方法 |
-
2019
- 2019-10-08 US US16/596,399 patent/US20210103608A1/en active Pending
-
2020
- 2020-09-29 JP JP2022520298A patent/JP7539201B2/ja active Active
- 2020-09-29 AU AU2020364386A patent/AU2020364386B2/en active Active
- 2020-09-29 KR KR1020227008090A patent/KR20220050915A/ko active Search and Examination
- 2020-09-29 WO PCT/IB2020/059112 patent/WO2021070005A1/en active Application Filing
- 2020-09-29 GB GB2206094.1A patent/GB2604276A/en not_active Withdrawn
- 2020-09-29 CN CN202080066389.3A patent/CN114424197A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bansal et al. | Towards speech-to-text translation without speech recognition | |
WO2019085640A1 (zh) | 词义消歧方法和设备、词义扩展方法、装置和设备、计算机可读存储介质 | |
CN110555203B (zh) | 文本复述方法、装置、服务器及存储介质 | |
Bott et al. | An unsupervised alignment algorithm for text simplification corpus construction | |
KR20190113965A (ko) | 인간의 개입 없이 특허 명세서가 작성되도록 인간이 제공한 특허 청구항에 기초하여 특허 명세서를 작성하기 위해 기계 학습 및 규칙 기반 알고리즘을 사용하기 위한 시스템 및 방법 | |
JP2013544397A5 (ja) | ||
US10664659B2 (en) | Method for modifying segmentation model based on artificial intelligence, device and storage medium | |
GB2604276A (en) | Rare topic detection using hierarchical clustering | |
Pruteanu-Malinici et al. | Hierarchical Bayesian modeling of topics in time-stamped documents | |
JPWO2021202552A5 (ja) | ||
JP2019091445A5 (ja) | ||
Wei et al. | Poet-based poetry generation: Controlling personal style with recurrent neural networks | |
CN107506345A (zh) | 语言模型的构建方法和装置 | |
Tian et al. | Tod-da: Towards boosting the robustness of task-oriented dialogue modeling on spoken conversations | |
Chowdhury et al. | Cross-language transfer of semantic annotation via targeted crowdsourcing. | |
Lignos et al. | Recession segmentation: simpler online word segmentation using limited resources | |
KR102347505B1 (ko) | 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 장치 및 방법 | |
Guo et al. | A linguistically inspired statistical model for Chinese punctuation generation | |
US20140303962A1 (en) | Ordering a Lexicon Network for Automatic Disambiguation | |
JPWO2021070005A5 (ja) | ||
Vandeghinste et al. | A comparison of different punctuation prediction approaches in a translation context | |
Chowdhury et al. | Selection and aggregation techniques for crowdsourced semantic annotation task | |
Frost et al. | Insights from studying statistical learning | |
Guo et al. | HIGNN-TTS: Hierarchical Prosody Modeling With Graph Neural Networks for Expressive Long-Form TTS | |
Li et al. | Learning event expressions via bilingual structure projection |