JPWO2021070005A5 - - Google Patents

Download PDF

Info

Publication number
JPWO2021070005A5
JPWO2021070005A5 JP2022520298A JP2022520298A JPWO2021070005A5 JP WO2021070005 A5 JPWO2021070005 A5 JP WO2021070005A5 JP 2022520298 A JP2022520298 A JP 2022520298A JP 2022520298 A JP2022520298 A JP 2022520298A JP WO2021070005 A5 JPWO2021070005 A5 JP WO2021070005A5
Authority
JP
Japan
Prior art keywords
clusters
cluster
topic model
dominant
seeding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022520298A
Other languages
English (en)
Other versions
JP2022552140A (ja
JP7539201B2 (ja
Publication date
Priority claimed from US16/596,399 external-priority patent/US20210103608A1/en
Application filed filed Critical
Publication of JP2022552140A publication Critical patent/JP2022552140A/ja
Publication of JPWO2021070005A5 publication Critical patent/JPWO2021070005A5/ja
Application granted granted Critical
Publication of JP7539201B2 publication Critical patent/JP7539201B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Claims (10)

  1. プロセッサによる階層トピック・モデリングを使用して希少トピック検出を提供するための方法であって、
    1つまたは複数のデータ・ソースから階層トピック・モデルを学習することと、
    選択されたクラスタ内の1つまたは複数の支配的な語を、前記階層トピック・モデルを使用して反復的に除去することであって、前記支配的な語が、前記クラスタの1つまたは複数の主要なトピックと関係する、前記除去することと、
    前記学習された階層トピック・モデルに、前記階層トピック・モデルを発展させるべく、1つもしくは複数の語、1つもしくは複数のN-gram、1つもしくは複数の句、1つもしくは複数のテキスト・スニペット、またはその組合せをシード設定することであって、前記除去された支配的な語が、前記シード設定が完了すると、復帰させられる、前記シード設定することと
    を含む方法。
  2. 1つまたは複数の語ベクトルを生成することと、前記1つまたは複数の語ベクトルの各々をスコアリングすることとをさらに含む、請求項1に記載の方法。
  3. 前記1つまたは複数の語ベクトルから複数のクラスタを生成することをさらに含み、前記選択されたクラスタが、前記複数のクラスタから識別され、かつキング・クラスタであり、前記キング・クラスタが、前記複数のクラスタからの最大のクラスタである、請求項1に記載の方法。
  4. 前記選択されたクラスタを、反復の各回において複数のクラスタに分割することと、
    前記複数のクラスタから代替の選択されたクラスタを、前記代替の選択されたクラスタ内の1つまたは複数の支配的な語を反復的に除去しながら識別することであって、前記代替の選択されたクラスタが、キング・クラスタであり、前記キング・クラスタが、前記複数のクラスタからの最大のクラスタである、前記識別することと
    をさらに含む、請求項1に記載の方法。
  5. 前記階層トピック・モデルに既存のトピック・モデルをシード設定することをさらに含む、請求項1に記載の方法。
  6. 1つまたは複数のクラスタ・モデルにより複数のクラスタの各々にシード設定することをさらに含む、請求項1に記載の方法。
  7. 前記複数のクラスタの各々の間の1つまたは複数の差を、反復の各回において前記選択されたクラスタ内の1つまたは複数の支配的な語を反復的に除去しながら識別することをさらに含む、請求項1に記載の方法。
  8. 請求項1ないし7の何か一項に記載の方法を実行するプロセッサを含むシステム。
  9. プロセッサに、請求項1ないし7の何か一項に記載の方法を実行させるためのコンピュータ・プログラム。
  10. 請求項9に記載のコンピュータ・プログラムを記憶するコンピュータ読取可能記録媒体。
JP2022520298A 2019-10-08 2020-09-29 階層クラスタリングを使用する希少トピック検出 Active JP7539201B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/596,399 US20210103608A1 (en) 2019-10-08 2019-10-08 Rare topic detection using hierarchical clustering
US16/596,399 2019-10-08
PCT/IB2020/059112 WO2021070005A1 (en) 2019-10-08 2020-09-29 Rare topic detection using hierarchical clustering

Publications (3)

Publication Number Publication Date
JP2022552140A JP2022552140A (ja) 2022-12-15
JPWO2021070005A5 true JPWO2021070005A5 (ja) 2022-12-22
JP7539201B2 JP7539201B2 (ja) 2024-08-23

Family

ID=75273583

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022520298A Active JP7539201B2 (ja) 2019-10-08 2020-09-29 階層クラスタリングを使用する希少トピック検出

Country Status (7)

Country Link
US (1) US20210103608A1 (ja)
JP (1) JP7539201B2 (ja)
KR (1) KR20220050915A (ja)
CN (1) CN114424197A (ja)
AU (1) AU2020364386B2 (ja)
GB (1) GB2604276A (ja)
WO (1) WO2021070005A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11354345B2 (en) * 2020-06-22 2022-06-07 Jpmorgan Chase Bank, N.A. Clustering topics for data visualization
US11941038B2 (en) 2022-05-19 2024-03-26 International Business Machines Corporation Transparent and controllable topic modeling
WO2024173841A1 (en) * 2023-02-16 2024-08-22 Jpmorgan Chase Bank, N.A. Systems and methods for seeded neural topic modeling

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7882127B2 (en) * 2002-05-10 2011-02-01 Oracle International Corporation Multi-category support for apply output
US7809704B2 (en) * 2006-06-15 2010-10-05 Microsoft Corporation Combining spectral and probabilistic clustering
US7912847B2 (en) * 2007-02-20 2011-03-22 Wright State University Comparative web search system and method
US20100153318A1 (en) * 2008-11-19 2010-06-17 Massachusetts Institute Of Technology Methods and systems for automatically summarizing semantic properties from documents with freeform textual annotations
US9031944B2 (en) * 2010-04-30 2015-05-12 Palo Alto Research Center Incorporated System and method for providing multi-core and multi-level topical organization in social indexes
US8843497B2 (en) * 2012-02-09 2014-09-23 Linkshare Corporation System and method for association extraction for surf-shopping
CN103927176B (zh) * 2014-04-18 2017-02-22 扬州大学 一种基于层次主题模型的程序特征树的生成方法
CN103970865B (zh) * 2014-05-08 2017-04-19 清华大学 基于种子词的微博文本层次主题发现方法及系统
US11989662B2 (en) * 2014-10-10 2024-05-21 San Diego State University Research Foundation Methods and systems for base map and inference mapping
US9697245B1 (en) * 2015-12-30 2017-07-04 International Business Machines Corporation Data-dependent clustering of geospatial words
US11645317B2 (en) * 2016-07-26 2023-05-09 Qualtrics, Llc Recommending topic clusters for unstructured text documents
US10997509B2 (en) * 2017-02-14 2021-05-04 Cognitive Scale, Inc. Hierarchical topic machine learning operation
CN109544632B (zh) * 2018-11-05 2021-08-03 浙江工业大学 一种基于层次主题模型的语义slam对象关联方法

Similar Documents

Publication Publication Date Title
Bansal et al. Towards speech-to-text translation without speech recognition
WO2019085640A1 (zh) 词义消歧方法和设备、词义扩展方法、装置和设备、计算机可读存储介质
CN110555203B (zh) 文本复述方法、装置、服务器及存储介质
Bott et al. An unsupervised alignment algorithm for text simplification corpus construction
KR20190113965A (ko) 인간의 개입 없이 특허 명세서가 작성되도록 인간이 제공한 특허 청구항에 기초하여 특허 명세서를 작성하기 위해 기계 학습 및 규칙 기반 알고리즘을 사용하기 위한 시스템 및 방법
JP2013544397A5 (ja)
US10664659B2 (en) Method for modifying segmentation model based on artificial intelligence, device and storage medium
GB2604276A (en) Rare topic detection using hierarchical clustering
Pruteanu-Malinici et al. Hierarchical Bayesian modeling of topics in time-stamped documents
JPWO2021202552A5 (ja)
JP2019091445A5 (ja)
Wei et al. Poet-based poetry generation: Controlling personal style with recurrent neural networks
CN107506345A (zh) 语言模型的构建方法和装置
Tian et al. Tod-da: Towards boosting the robustness of task-oriented dialogue modeling on spoken conversations
Chowdhury et al. Cross-language transfer of semantic annotation via targeted crowdsourcing.
Lignos et al. Recession segmentation: simpler online word segmentation using limited resources
KR102347505B1 (ko) 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 장치 및 방법
Guo et al. A linguistically inspired statistical model for Chinese punctuation generation
US20140303962A1 (en) Ordering a Lexicon Network for Automatic Disambiguation
JPWO2021070005A5 (ja)
Vandeghinste et al. A comparison of different punctuation prediction approaches in a translation context
Chowdhury et al. Selection and aggregation techniques for crowdsourced semantic annotation task
Frost et al. Insights from studying statistical learning
Guo et al. HIGNN-TTS: Hierarchical Prosody Modeling With Graph Neural Networks for Expressive Long-Form TTS
Li et al. Learning event expressions via bilingual structure projection