JPWO2021070005A5

JPWO2021070005A5 -

Info

Publication number: JPWO2021070005A5
Application number: JP2022520298A
Authority: JP
Publication date: 2022-12-22
Anticipated expiration: 2040-09-29

Claims

プロセッサによる階層トピック・モデリングを使用して希少トピック検出を提供するための方法であって、
１つまたは複数のデータ・ソースから階層トピック・モデルを学習することと、
選択されたクラスタ内の１つまたは複数の支配的な語を、前記階層トピック・モデルを使用して反復的に除去することであって、前記支配的な語が、前記クラスタの１つまたは複数の主要なトピックと関係する、前記除去することと、
前記学習された階層トピック・モデルに、前記階層トピック・モデルを発展させるべく、１つもしくは複数の語、１つもしくは複数のＮ－ｇｒａｍ、１つもしくは複数の句、１つもしくは複数のテキスト・スニペット、またはその組合せをシード設定することであって、前記除去された支配的な語が、前記シード設定が完了すると、復帰させられる、前記シード設定することと
を含む方法。
１つまたは複数の語ベクトルを生成することと、前記１つまたは複数の語ベクトルの各々をスコアリングすることとをさらに含む、請求項１に記載の方法。
前記１つまたは複数の語ベクトルから複数のクラスタを生成することをさらに含み、前記選択されたクラスタが、前記複数のクラスタから識別され、かつキング・クラスタであり、前記キング・クラスタが、前記複数のクラスタからの最大のクラスタである、請求項１に記載の方法。
前記選択されたクラスタを、反復の各回において複数のクラスタに分割することと、
前記複数のクラスタから代替の選択されたクラスタを、前記代替の選択されたクラスタ内の１つまたは複数の支配的な語を反復的に除去しながら識別することであって、前記代替の選択されたクラスタが、キング・クラスタであり、前記キング・クラスタが、前記複数のクラスタからの最大のクラスタである、前記識別することと
をさらに含む、請求項１に記載の方法。
前記階層トピック・モデルに既存のトピック・モデルをシード設定することをさらに含む、請求項１に記載の方法。
１つまたは複数のクラスタ・モデルにより複数のクラスタの各々にシード設定することをさらに含む、請求項１に記載の方法。
前記複数のクラスタの各々の間の１つまたは複数の差を、反復の各回において前記選択されたクラスタ内の１つまたは複数の支配的な語を反復的に除去しながら識別することをさらに含む、請求項１に記載の方法。
請求項１ないし７の何か一項に記載の方法を実行するプロセッサを含むシステム。
プロセッサに、請求項１ないし７の何か一項に記載の方法を実行させるためのコンピュータ・プログラム。
請求項９に記載のコンピュータ・プログラムを記憶するコンピュータ読取可能記録媒体。