JPWO2020250064A5

JPWO2020250064A5 -

Info

Publication number: JPWO2020250064A5
Application number: JP2021561867A
Authority: JP
Publication date: 2022-10-21
Anticipated expiration: 2040-05-27

Claims

テキスト文書のコンテキスト・アウェア・データ・マイニングのコンピュータ実装方法であって、
入力クエリから構文解析および前処理された単語のリストを受信するステップと、
クエリされている前記テキスト文書の単語埋込みモデルを使用して、前記単語のリスト内の単語ごとの関連する分散埋込み表現を計算するステップと、
単一の埋込みで前記入力クエリを表すために、前記単語のリスト内のすべての単語の前記関連する分散埋込み表現を集約するステップと、
前記クエリの前記集約された単語埋込み表現に類似したＮ行の文書セグメントのランク付けされたリストを取得するステップと、
前記取得したセグメントのリストをユーザに返信するステップと
を含む、方法。
前記関連する分散埋込み表現を集約するステップが、すべての前記関連する分散埋込み表現の平均またはすべての前記関連する分散埋込み表現の最大値のうちの一方を使用して実行される、請求項１に記載の方法。
Ｎが前記ユーザによって提供される正の整数である、請求項１に記載の方法。
前記テキスト文書の前記単語埋込みモデルをトレーニングするステップをさらに含み、前記ステップが、
前記テキスト文書を構文解析および前処理し、トークン化された単語リストを生成するステップと、
前記トークン化された単語リストから単語辞書を定義するステップであって、前記単語辞書が前記トークン化された単語リスト内のトークンの少なくとも一部を含む、前記定義するステップと、
前記単語埋込みモデルをトレーニングするステップであって、前記単語埋込みモデルが、前記単語辞書内の各単語または行をベクトルで表すニューラル・ネットワーク・モデルである、前記トレーニングするステップと
を含む、請求項１に記載の方法。
前記テキスト文書を構文解析および前処理するステップが、
前記テキスト文書内の各行からすべての句読点およびプリアンブルを削除するステップと、
数値データを解析するステップと、
トークン化された単語リストを形成するために前記テキスト文書を単語でトークン化するステップであって、トークンが前記文書の単一の単語、Ｎ個の連続した単語のＮグラム、または行全体のうちの１つである、前記トークン化するステップと、
前記トークン化された単語リストを返信するステップと
を含む、請求項４に記載の方法。
前記テキスト文書がコンピュータ・システム・ログであり、前記数値データが１０進数および１６進アドレスを含む、請求項５に記載の方法。
前記入力クエリからすべての句読点を削除することと、
数値データを解析することと、
トークン化された単語リストを生成するために前記入力クエリを単語でトークン化することであって、トークンが前記入力クエリの単一の単語、Ｎ個の連続した単語のＮグラム、または行全体のうちの１つである、前記トークン化することと、
前記トークン化された単語リストを返信することと
によって、前記入力クエリを構文解析および前処理するステップをさらに含む、請求項１に記載の方法。
前記クエリの前記集約された単語埋込み表現に類似したＮ行の文書セグメントのランク付けされたリストを取得するステップが、
類似性メトリックを使用して、前記クエリの前記集約された単語埋込み表現を前記テキスト文書の前記単語埋込みモデルと比較するステップと、
前記クエリの前記集約された単語埋込み表現との類似性が所定の閾値よりも大きい前記テキスト文書の前記単語埋込みモデルのセグメントを返信するステップと、
前記取得した文書セグメントを前記類似性に従ってランク付けするステップと
を含む、請求項１に記載の方法。
テキスト文書のコンテキスト・アウェア・データ・マイニングのコンピュータ実装方法であって、
前記テキスト文書を構文解析および前処理し、トークン化された単語リストを生成するステップと、
前記トークン化された単語リストから単語辞書を定義するステップであって、前記単語辞書が前記トークン化された単語リスト内のトークンの少なくとも一部を含む、前記定義するステップと、
前記単語埋込みモデルをトレーニングするステップであって、前記単語埋込みモデルが、前記単語辞書内の各単語または行をベクトルで表すニューラル・ネットワーク・モデルである、前記トレーニングするステップとを含み、
前記テキスト文書を構文解析および前処理するステップが、
前記テキスト文書内の各行からすべての句読点およびプリアンブルを削除するステップと、
数値データを解析するステップと、
トークン化された単語リストを形成するために前記テキスト文書を単語でトークン化するステップであって、トークンが前記文書の単一の単語、Ｎ個の連続した単語のＮグラム、または行全体のうちの１つである、前記トークン化するステップと、
前記トークン化された単語リストを返信するステップと
を含む、方法。
入力クエリから構文解析および前処理された単語のリストを受信するステップと、
クエリされている前記テキスト文書の前記単語埋込みモデルを使用して、単語ごとの関連する分散埋込み表現を計算するステップと、
単一の埋込みで前記クエリを表すために、前記単語のリスト内のすべての単語の前記関連する分散埋込み表現を集約するステップと、
前記クエリの前記集約された単語埋込み表現に類似したＮ行の文書セグメントのランク付けされたリストを取得するステップと、
前記取得したセグメントのリストをユーザに返信するステップと
をさらに含む、請求項９に記載の方法。
前記入力クエリからすべての句読点を削除することと、
数値データを解析することと、
トークン化された単語リストを生成するために前記入力クエリを単語でトークン化することであって、トークンが前記入力クエリの単一の単語、Ｎ個の連続した単語のＮグラム、または行全体のうちの１つである、前記トークン化することと、
前記トークン化された単語リストを返信することと
によって、前記入力クエリを構文解析および前処理するステップをさらに含む、請求項１０に記載の方法。
前記クエリの前記集約された単語埋込み表現に類似したＮ行の文書セグメントのランク付けされたリストを取得するステップが、
類似性メトリックを使用して、前記クエリの前記集約された単語埋込み表現を前記テキスト文書の前記単語埋込みモデルと比較するステップと、
前記クエリの前記集約された単語埋込み表現との類似性が所定の閾値よりも大きい前記テキスト文書の前記単語埋込みモデルのセグメントを返信するステップと、
前記取得した文書セグメントを前記類似性に従ってランク付けするステップと
を含む、請求項１０に記載の方法。
前記テキスト文書がコンピュータ・システム・ログであり、前記数値データが１０進数および１６進アドレスを含む、請求項９に記載の方法。
前記関連する分散埋込み表現を集約するステップが、すべての前記関連する分散埋込み表現の平均またはすべての前記関連する分散埋込み表現の最大値のうちの一方を使用して実行される、請求項１０に記載の方法。
Ｎが前記ユーザによって提供される正の整数である、請求項１０に記載の方法。
コンピュータ・プログラムであって、コンピュータに、請求項１ないし８のいずれか一項に記載の方法を実行させる、コンピュータ・プログラム。
テキスト文書のコンテキスト・アウェア・データ・マイニングのためのコンピュータ・プログラムであって、コンピュータに、
前記テキスト文書を構文解析および前処理し、トークン化された単語リストを生成するステップと、
前記トークン化された単語リストから単語辞書を定義するステップであって、前記単語辞書が前記トークン化された単語リスト内のトークンの少なくとも一部を含む、前記定義するステップと、
単語埋込みモデルをトレーニングするステップであって、前記単語埋込みモデルが、前記単語辞書内の各単語または行をベクトルで表すニューラル・ネットワーク・モデルである、前記トレーニングするステップとを実行させ、
前記テキスト文書を構文解析および前処理するステップが、
前記テキスト文書内の各行からすべての句読点およびプリアンブルを削除するステップと、
数値データを解析するステップと、
トークン化された単語リストを形成するために前記テキスト文書を単語でトークン化するステップであって、トークンが前記文書の単一の単語、Ｎ個の連続した単語のＮグラム、または行全体のうちの１つである、前記トークン化するステップと、
前記トークン化された単語リストを返信するステップと
を含む、コンピュータ・プログラム。