JPWO2020250064A5 - - Google Patents

Download PDF

Info

Publication number
JPWO2020250064A5
JPWO2020250064A5 JP2021561867A JP2021561867A JPWO2020250064A5 JP WO2020250064 A5 JPWO2020250064 A5 JP WO2020250064A5 JP 2021561867 A JP2021561867 A JP 2021561867A JP 2021561867 A JP2021561867 A JP 2021561867A JP WO2020250064 A5 JPWO2020250064 A5 JP WO2020250064A5
Authority
JP
Japan
Prior art keywords
word
list
words
embedding
text document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021561867A
Other languages
English (en)
Other versions
JP7481074B2 (ja
JP2022536241A (ja
Publication date
Priority claimed from US16/437,989 external-priority patent/US11409754B2/en
Application filed filed Critical
Publication of JP2022536241A publication Critical patent/JP2022536241A/ja
Publication of JPWO2020250064A5 publication Critical patent/JPWO2020250064A5/ja
Application granted granted Critical
Publication of JP7481074B2 publication Critical patent/JP7481074B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Claims (17)

  1. テキスト文書のコンテキスト・アウェア・データ・マイニングのコンピュータ実装方法であって、
    入力クエリから構文解析および前処理された単語のリストを受信するステップと、
    クエリされている前記テキスト文書の単語埋込みモデルを使用して、前記単語のリスト内の単語ごとの関連する分散埋込み表現を計算するステップと、
    単一の埋込みで前記入力クエリを表すために、前記単語のリスト内のすべての単語の前記関連する分散埋込み表現を集約するステップと、
    前記クエリの前記集約された単語埋込み表現に類似したN行の文書セグメントのランク付けされたリストを取得するステップと、
    前記取得したセグメントのリストをユーザに返信するステップと
    を含む、方法。
  2. 前記関連する分散埋込み表現を集約するステップが、すべての前記関連する分散埋込み表現の平均またはすべての前記関連する分散埋込み表現の最大値のうちの一方を使用して実行される、請求項1に記載の方法。
  3. Nが前記ユーザによって提供される正の整数である、請求項1に記載の方法。
  4. 前記テキスト文書の前記単語埋込みモデルをトレーニングするステップをさらに含み、前記ステップが、
    前記テキスト文書を構文解析および前処理し、トークン化された単語リストを生成するステップと、
    前記トークン化された単語リストから単語辞書を定義するステップであって、前記単語辞書が前記トークン化された単語リスト内のトークンの少なくとも一部を含む、前記定義するステップと、
    前記単語埋込みモデルをトレーニングするステップであって、前記単語埋込みモデルが、前記単語辞書内の各単語または行をベクトルで表すニューラル・ネットワーク・モデルである、前記トレーニングするステップと
    を含む、請求項1に記載の方法。
  5. 前記テキスト文書を構文解析および前処理するステップが、
    前記テキスト文書内の各行からすべての句読点およびプリアンブルを削除するステップと、
    数値データを解析するステップと、
    トークン化された単語リストを形成するために前記テキスト文書を単語でトークン化するステップであって、トークンが前記文書の単一の単語、N個の連続した単語のNグラム、または行全体のうちの1つである、前記トークン化するステップと、
    前記トークン化された単語リストを返信するステップと
    を含む、請求項4に記載の方法。
  6. 前記テキスト文書がコンピュータ・システム・ログであり、前記数値データが10進数および16進アドレスを含む、請求項5に記載の方法。
  7. 前記入力クエリからすべての句読点を削除することと、
    数値データを解析することと、
    トークン化された単語リストを生成するために前記入力クエリを単語でトークン化することであって、トークンが前記入力クエリの単一の単語、N個の連続した単語のNグラム、または行全体のうちの1つである、前記トークン化することと、
    前記トークン化された単語リストを返信することと
    によって、前記入力クエリを構文解析および前処理するステップをさらに含む、請求項1に記載の方法。
  8. 前記クエリの前記集約された単語埋込み表現に類似したN行の文書セグメントのランク付けされたリストを取得するステップが、
    類似性メトリックを使用して、前記クエリの前記集約された単語埋込み表現を前記テキスト文書の前記単語埋込みモデルと比較するステップと、
    前記クエリの前記集約された単語埋込み表現との類似性が所定の閾値よりも大きい前記テキスト文書の前記単語埋込みモデルのセグメントを返信するステップと、
    前記取得した文書セグメントを前記類似性に従ってランク付けするステップと
    を含む、請求項1に記載の方法。
  9. テキスト文書のコンテキスト・アウェア・データ・マイニングのコンピュータ実装方法であって、
    前記テキスト文書を構文解析および前処理し、トークン化された単語リストを生成するステップと、
    前記トークン化された単語リストから単語辞書を定義するステップであって、前記単語辞書が前記トークン化された単語リスト内のトークンの少なくとも一部を含む、前記定義するステップと、
    前記単語埋込みモデルをトレーニングするステップであって、前記単語埋込みモデルが、前記単語辞書内の各単語または行をベクトルで表すニューラル・ネットワーク・モデルである、前記トレーニングするステップとを含み、
    前記テキスト文書を構文解析および前処理するステップが、
    前記テキスト文書内の各行からすべての句読点およびプリアンブルを削除するステップと、
    数値データを解析するステップと、
    トークン化された単語リストを形成するために前記テキスト文書を単語でトークン化するステップであって、トークンが前記文書の単一の単語、N個の連続した単語のNグラム、または行全体のうちの1つである、前記トークン化するステップと、
    前記トークン化された単語リストを返信するステップと
    を含む、方法。
  10. 入力クエリから構文解析および前処理された単語のリストを受信するステップと、
    クエリされている前記テキスト文書の前記単語埋込みモデルを使用して、単語ごとの関連する分散埋込み表現を計算するステップと、
    単一の埋込みで前記クエリを表すために、前記単語のリスト内のすべての単語の前記関連する分散埋込み表現を集約するステップと、
    前記クエリの前記集約された単語埋込み表現に類似したN行の文書セグメントのランク付けされたリストを取得するステップと、
    前記取得したセグメントのリストをユーザに返信するステップと
    をさらに含む、請求項9に記載の方法。
  11. 前記入力クエリからすべての句読点を削除することと、
    数値データを解析することと、
    トークン化された単語リストを生成するために前記入力クエリを単語でトークン化することであって、トークンが前記入力クエリの単一の単語、N個の連続した単語のNグラム、または行全体のうちの1つである、前記トークン化することと、
    前記トークン化された単語リストを返信することと
    によって、前記入力クエリを構文解析および前処理するステップをさらに含む、請求項10に記載の方法。
  12. 前記クエリの前記集約された単語埋込み表現に類似したN行の文書セグメントのランク付けされたリストを取得するステップが、
    類似性メトリックを使用して、前記クエリの前記集約された単語埋込み表現を前記テキスト文書の前記単語埋込みモデルと比較するステップと、
    前記クエリの前記集約された単語埋込み表現との類似性が所定の閾値よりも大きい前記テキスト文書の前記単語埋込みモデルのセグメントを返信するステップと、
    前記取得した文書セグメントを前記類似性に従ってランク付けするステップと
    を含む、請求項10に記載の方法。
  13. 前記テキスト文書がコンピュータ・システム・ログであり、前記数値データが10進数および16進アドレスを含む、請求項9に記載の方法。
  14. 前記関連する分散埋込み表現を集約するステップが、すべての前記関連する分散埋込み表現の平均またはすべての前記関連する分散埋込み表現の最大値のうちの一方を使用して実行される、請求項10に記載の方法。
  15. Nが前記ユーザによって提供される正の整数である、請求項10に記載の方法。
  16. コンピュータ・プログラムであって、コンピュータに、請求項1ないし8のいずれか一項に記載の方法を実行させる、コンピュータ・プログラム。
  17. テキスト文書のコンテキスト・アウェア・データ・マイニングのためのコンピュータ・プログラムであって、コンピュータに、
    前記テキスト文書を構文解析および前処理し、トークン化された単語リストを生成するステップと、
    前記トークン化された単語リストから単語辞書を定義するステップであって、前記単語辞書が前記トークン化された単語リスト内のトークンの少なくとも一部を含む、前記定義するステップと、
    単語埋込みモデルをトレーニングするステップであって、前記単語埋込みモデルが、前記単語辞書内の各単語または行をベクトルで表すニューラル・ネットワーク・モデルである、前記トレーニングするステップとを実行させ
    前記テキスト文書を構文解析および前処理するステップが、
    前記テキスト文書内の各行からすべての句読点およびプリアンブルを削除するステップと、
    数値データを解析するステップと、
    トークン化された単語リストを形成するために前記テキスト文書を単語でトークン化するステップであって、トークンが前記文書の単一の単語、N個の連続した単語のNグラム、または行全体のうちの1つである、前記トークン化するステップと、
    前記トークン化された単語リストを返信するステップと
    を含む、コンピュータ・プログラム
JP2021561867A 2019-06-11 2020-05-27 コンテキスト・アウェア・データ・マイニング Active JP7481074B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/437,989 US11409754B2 (en) 2019-06-11 2019-06-11 NLP-based context-aware log mining for troubleshooting
US16/437,989 2019-06-11
PCT/IB2020/054997 WO2020250064A1 (en) 2019-06-11 2020-05-27 Context-aware data mining

Publications (3)

Publication Number Publication Date
JP2022536241A JP2022536241A (ja) 2022-08-15
JPWO2020250064A5 true JPWO2020250064A5 (ja) 2022-10-21
JP7481074B2 JP7481074B2 (ja) 2024-05-10

Family

ID=73745061

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021561867A Active JP7481074B2 (ja) 2019-06-11 2020-05-27 コンテキスト・アウェア・データ・マイニング

Country Status (6)

Country Link
US (1) US11409754B2 (ja)
JP (1) JP7481074B2 (ja)
CN (1) CN113906445A (ja)
DE (1) DE112020002886T5 (ja)
GB (1) GB2599300A (ja)
WO (1) WO2020250064A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021005433A1 (ja) * 2019-07-05 2021-01-14 株式会社半導体エネルギー研究所 読解支援システム及び読解支援方法
US20220350827A1 (en) * 2019-10-03 2022-11-03 Semiconductor Energy Laboratory Co., Ltd. Document data processing method and document data processing system
US20220138556A1 (en) * 2020-11-04 2022-05-05 Nvidia Corporation Data log parsing system and method
US20220224515A1 (en) * 2021-01-10 2022-07-14 Nec Corporation Of America Multi-party computation (mpc) based key search in private data
US11816242B2 (en) * 2021-07-14 2023-11-14 Capital One Services, Llc Log compression and obfuscation using embeddings
CN113792119A (zh) * 2021-09-17 2021-12-14 平安科技(深圳)有限公司 一种文章原创度评价系统、方法、设备及介质
US20240089275A1 (en) * 2022-09-09 2024-03-14 International Business Machines Corporation Log anomaly detection in continuous artificial intelligence for it operations
CN116682543B (zh) * 2023-08-03 2023-11-10 山东大学齐鲁医院 一种区域康复信息的共享方法及系统

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040254919A1 (en) * 2003-06-13 2004-12-16 Microsoft Corporation Log parser
US20050060643A1 (en) * 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
US20060106793A1 (en) * 2003-12-29 2006-05-18 Ping Liang Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
US20080040339A1 (en) * 2006-08-07 2008-02-14 Microsoft Corporation Learning question paraphrases from log data
US8036464B2 (en) * 2007-09-07 2011-10-11 Satyam Computer Services Limited System and method for automatic segmentation of ASR transcripts
US20090300054A1 (en) * 2008-05-29 2009-12-03 Kathleen Fisher System for inferring data structures
US8130667B2 (en) * 2008-09-19 2012-03-06 Texas Instruments Incorporated Preamble group selection in random access of wireless networks
US20110208715A1 (en) * 2010-02-23 2011-08-25 Microsoft Corporation Automatically mining intents of a group of queries
US9965129B2 (en) * 2012-06-01 2018-05-08 Excalibur Ip, Llc Personalized content from indexed archives
US9280520B2 (en) 2012-08-02 2016-03-08 American Express Travel Related Services Company, Inc. Systems and methods for semantic information retrieval
US9313091B1 (en) 2013-09-26 2016-04-12 Emc Corporation Analytics platform for automated diagnosis, remediation, and proactive supportability
US20160162467A1 (en) * 2014-12-09 2016-06-09 Idibon, Inc. Methods and systems for language-agnostic machine learning in natural language processing using feature extraction
IN2015CH01424A (ja) 2015-03-20 2015-04-10 Wipro Ltd
US20200402049A1 (en) * 2015-06-11 2020-12-24 APPI Technologia S/A (D.B.A. MUXI) Antifraud Resilient Transaction Identifier Datastructure Apparatuses, Methods and Systems
US10606946B2 (en) * 2015-07-06 2020-03-31 Microsoft Technology Licensing, Llc Learning word embedding using morphological knowledge
WO2017037801A1 (ja) * 2015-08-28 2017-03-09 株式会社日立製作所 監視システムおよび監視方法
US9990353B2 (en) 2015-12-22 2018-06-05 Successfactors, Inc. Natural language interface for software customization
US10061845B2 (en) * 2016-02-18 2018-08-28 Fmr Llc Analysis of unstructured computer text to generate themes and determine sentiment
US10289509B2 (en) 2016-04-06 2019-05-14 Nec Corporation System failure prediction using long short-term memory neural networks
US10402495B1 (en) * 2016-09-01 2019-09-03 Facebook, Inc. Abstractive sentence summarization
WO2018092924A1 (ko) 2016-11-15 2018-05-24 (주) 글루시스 스마트 컴퓨팅을 위한 시스템 자원의 장애 예측 방법
US10789298B2 (en) * 2016-11-16 2020-09-29 International Business Machines Corporation Specialist keywords recommendations in semantic space
WO2018093904A1 (en) * 2016-11-17 2018-05-24 Goldman Sachs & Co. LLC System and method for coupled detection of syntax and semantics for natural language understanding and generation
US10740170B2 (en) 2016-12-08 2020-08-11 Nec Corporation Structure-level anomaly detection for unstructured logs
CN106777191B (zh) 2016-12-23 2021-05-04 北京奇虎科技有限公司 一种基于搜索引擎的检索模式生成方法及装置
JP6543283B2 (ja) * 2017-02-03 2019-07-10 日本電信電話株式会社 パッセージ型質問応答装置、方法、及びプログラム
US10474709B2 (en) * 2017-04-14 2019-11-12 Salesforce.Com, Inc. Deep reinforced model for abstractive summarization
US10565244B2 (en) * 2017-06-22 2020-02-18 NewVoiceMedia Ltd. System and method for text categorization and sentiment analysis
US20190043486A1 (en) * 2017-08-04 2019-02-07 EMR.AI Inc. Method to aid transcribing a dictated to written structured report
US10706229B2 (en) * 2017-09-28 2020-07-07 Nec Corporation Content aware heterogeneous log pattern comparative analysis engine
US10664512B1 (en) * 2018-02-13 2020-05-26 Snap Inc. Query matching to media collections in a messaging system
CN108399163B (zh) 2018-03-21 2021-01-12 北京理工大学 结合词聚合与词组合语义特征的文本相似性度量方法
DE112019001497T5 (de) * 2018-03-23 2021-01-07 Semiconductor Energy Laboratory Co., Ltd. System zur Dokumentensuche, Verfahren zur Dokumentensuche, Programm und nicht-transitorisches, von einem Computer lesbares Speichermedium
US11120033B2 (en) * 2018-05-16 2021-09-14 Nec Corporation Computer log retrieval based on multivariate log time series
US10459962B1 (en) * 2018-09-19 2019-10-29 Servicenow, Inc. Selectively generating word vector and paragraph vector representations of fields for machine learning
US11562135B2 (en) * 2018-10-16 2023-01-24 Oracle International Corporation Constructing conclusive answers for autonomous agents
US10769378B2 (en) * 2018-11-14 2020-09-08 International Business Machines Corporation Extending system entities for conversational system
US11308320B2 (en) * 2018-12-17 2022-04-19 Cognition IP Technology Inc. Multi-segment text search using machine learning model for text similarity
US11080490B2 (en) * 2019-03-28 2021-08-03 Servicenow, Inc. Pre-training of virtual chat interfaces
US20200372550A1 (en) * 2019-05-24 2020-11-26 relemind GmbH Systems for creating and/or maintaining databases and a system for facilitating online advertising with improved privacy

Similar Documents

Publication Publication Date Title
GB2599300A (en) Context-aware data mining
CN106462604B (zh) 识别查询意图
US10210282B2 (en) Search and retrieval of electronic documents using key-value based partition-by-query indices
US10296582B2 (en) Method and apparatus for determining morpheme importance analysis model
US11017177B2 (en) Neural network systems and methods for target identification from text
CN111767725B (zh) 一种基于情感极性分析模型的数据处理方法及装置
US20120262461A1 (en) System and Method for the Normalization of Text
US20130246386A1 (en) Identifying key phrases within documents
CN102682120B (zh) 一种网络评论精华文本的获取方法和装置
JP2008181205A (ja) 不均質な情報源からの情報トラッキングのためのシステム、方法およびコンピュータ実行可能プログラム
US20170193291A1 (en) System and Methods for Determining Language Classification of Text Content in Documents
Rani et al. Automatic construction of generic stop words list for Hindi text
CN102103416A (zh) 一种汉字输入方法和装置
JPWO2020250064A5 (ja)
Rani et al. A hybrid approach for automatic document summarization
CN112835923A (zh) 一种相关检索方法、装置和设备
CN114255067A (zh) 数据定价方法和装置、电子设备、存储介质
Asubiaro Entropy-based generic stopwords list for Yoruba texts
US11361565B2 (en) Natural language processing (NLP) pipeline for automated attribute extraction
Dianati et al. Words stemming based on structural and semantic similarity
Huang et al. An unsupervised method for short-text sentiment analysis based on analysis of massive data
CN111428472A (zh) 一种基于自然语言处理及图像算法的文章自动生成系统和方法
KR101351555B1 (ko) 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템
JP4499003B2 (ja) 情報処理方法及び装置及びプログラム
CN113705217B (zh) 一种面向电力领域知识学习的文献推荐方法及装置