JPWO2020250064A5 - - Google Patents
Download PDFInfo
- Publication number
- JPWO2020250064A5 JPWO2020250064A5 JP2021561867A JP2021561867A JPWO2020250064A5 JP WO2020250064 A5 JPWO2020250064 A5 JP WO2020250064A5 JP 2021561867 A JP2021561867 A JP 2021561867A JP 2021561867 A JP2021561867 A JP 2021561867A JP WO2020250064 A5 JPWO2020250064 A5 JP WO2020250064A5
- Authority
- JP
- Japan
- Prior art keywords
- word
- list
- words
- embedding
- text document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims 15
- 238000007781 pre-processing Methods 0.000 claims 8
- 230000004931 aggregating effect Effects 0.000 claims 4
- 238000007418 data mining Methods 0.000 claims 3
- 238000003062 neural network model Methods 0.000 claims 3
- 238000004590 computer program Methods 0.000 claims 2
Claims (17)
- テキスト文書のコンテキスト・アウェア・データ・マイニングのコンピュータ実装方法であって、
入力クエリから構文解析および前処理された単語のリストを受信するステップと、
クエリされている前記テキスト文書の単語埋込みモデルを使用して、前記単語のリスト内の単語ごとの関連する分散埋込み表現を計算するステップと、
単一の埋込みで前記入力クエリを表すために、前記単語のリスト内のすべての単語の前記関連する分散埋込み表現を集約するステップと、
前記クエリの前記集約された単語埋込み表現に類似したN行の文書セグメントのランク付けされたリストを取得するステップと、
前記取得したセグメントのリストをユーザに返信するステップと
を含む、方法。 - 前記関連する分散埋込み表現を集約するステップが、すべての前記関連する分散埋込み表現の平均またはすべての前記関連する分散埋込み表現の最大値のうちの一方を使用して実行される、請求項1に記載の方法。
- Nが前記ユーザによって提供される正の整数である、請求項1に記載の方法。
- 前記テキスト文書の前記単語埋込みモデルをトレーニングするステップをさらに含み、前記ステップが、
前記テキスト文書を構文解析および前処理し、トークン化された単語リストを生成するステップと、
前記トークン化された単語リストから単語辞書を定義するステップであって、前記単語辞書が前記トークン化された単語リスト内のトークンの少なくとも一部を含む、前記定義するステップと、
前記単語埋込みモデルをトレーニングするステップであって、前記単語埋込みモデルが、前記単語辞書内の各単語または行をベクトルで表すニューラル・ネットワーク・モデルである、前記トレーニングするステップと
を含む、請求項1に記載の方法。 - 前記テキスト文書を構文解析および前処理するステップが、
前記テキスト文書内の各行からすべての句読点およびプリアンブルを削除するステップと、
数値データを解析するステップと、
トークン化された単語リストを形成するために前記テキスト文書を単語でトークン化するステップであって、トークンが前記文書の単一の単語、N個の連続した単語のNグラム、または行全体のうちの1つである、前記トークン化するステップと、
前記トークン化された単語リストを返信するステップと
を含む、請求項4に記載の方法。 - 前記テキスト文書がコンピュータ・システム・ログであり、前記数値データが10進数および16進アドレスを含む、請求項5に記載の方法。
- 前記入力クエリからすべての句読点を削除することと、
数値データを解析することと、
トークン化された単語リストを生成するために前記入力クエリを単語でトークン化することであって、トークンが前記入力クエリの単一の単語、N個の連続した単語のNグラム、または行全体のうちの1つである、前記トークン化することと、
前記トークン化された単語リストを返信することと
によって、前記入力クエリを構文解析および前処理するステップをさらに含む、請求項1に記載の方法。 - 前記クエリの前記集約された単語埋込み表現に類似したN行の文書セグメントのランク付けされたリストを取得するステップが、
類似性メトリックを使用して、前記クエリの前記集約された単語埋込み表現を前記テキスト文書の前記単語埋込みモデルと比較するステップと、
前記クエリの前記集約された単語埋込み表現との類似性が所定の閾値よりも大きい前記テキスト文書の前記単語埋込みモデルのセグメントを返信するステップと、
前記取得した文書セグメントを前記類似性に従ってランク付けするステップと
を含む、請求項1に記載の方法。 - テキスト文書のコンテキスト・アウェア・データ・マイニングのコンピュータ実装方法であって、
前記テキスト文書を構文解析および前処理し、トークン化された単語リストを生成するステップと、
前記トークン化された単語リストから単語辞書を定義するステップであって、前記単語辞書が前記トークン化された単語リスト内のトークンの少なくとも一部を含む、前記定義するステップと、
前記単語埋込みモデルをトレーニングするステップであって、前記単語埋込みモデルが、前記単語辞書内の各単語または行をベクトルで表すニューラル・ネットワーク・モデルである、前記トレーニングするステップとを含み、
前記テキスト文書を構文解析および前処理するステップが、
前記テキスト文書内の各行からすべての句読点およびプリアンブルを削除するステップと、
数値データを解析するステップと、
トークン化された単語リストを形成するために前記テキスト文書を単語でトークン化するステップであって、トークンが前記文書の単一の単語、N個の連続した単語のNグラム、または行全体のうちの1つである、前記トークン化するステップと、
前記トークン化された単語リストを返信するステップと
を含む、方法。 - 入力クエリから構文解析および前処理された単語のリストを受信するステップと、
クエリされている前記テキスト文書の前記単語埋込みモデルを使用して、単語ごとの関連する分散埋込み表現を計算するステップと、
単一の埋込みで前記クエリを表すために、前記単語のリスト内のすべての単語の前記関連する分散埋込み表現を集約するステップと、
前記クエリの前記集約された単語埋込み表現に類似したN行の文書セグメントのランク付けされたリストを取得するステップと、
前記取得したセグメントのリストをユーザに返信するステップと
をさらに含む、請求項9に記載の方法。 - 前記入力クエリからすべての句読点を削除することと、
数値データを解析することと、
トークン化された単語リストを生成するために前記入力クエリを単語でトークン化することであって、トークンが前記入力クエリの単一の単語、N個の連続した単語のNグラム、または行全体のうちの1つである、前記トークン化することと、
前記トークン化された単語リストを返信することと
によって、前記入力クエリを構文解析および前処理するステップをさらに含む、請求項10に記載の方法。 - 前記クエリの前記集約された単語埋込み表現に類似したN行の文書セグメントのランク付けされたリストを取得するステップが、
類似性メトリックを使用して、前記クエリの前記集約された単語埋込み表現を前記テキスト文書の前記単語埋込みモデルと比較するステップと、
前記クエリの前記集約された単語埋込み表現との類似性が所定の閾値よりも大きい前記テキスト文書の前記単語埋込みモデルのセグメントを返信するステップと、
前記取得した文書セグメントを前記類似性に従ってランク付けするステップと
を含む、請求項10に記載の方法。 - 前記テキスト文書がコンピュータ・システム・ログであり、前記数値データが10進数および16進アドレスを含む、請求項9に記載の方法。
- 前記関連する分散埋込み表現を集約するステップが、すべての前記関連する分散埋込み表現の平均またはすべての前記関連する分散埋込み表現の最大値のうちの一方を使用して実行される、請求項10に記載の方法。
- Nが前記ユーザによって提供される正の整数である、請求項10に記載の方法。
- コンピュータ・プログラムであって、コンピュータに、請求項1ないし8のいずれか一項に記載の方法を実行させる、コンピュータ・プログラム。
- テキスト文書のコンテキスト・アウェア・データ・マイニングのためのコンピュータ・プログラムであって、コンピュータに、
前記テキスト文書を構文解析および前処理し、トークン化された単語リストを生成するステップと、
前記トークン化された単語リストから単語辞書を定義するステップであって、前記単語辞書が前記トークン化された単語リスト内のトークンの少なくとも一部を含む、前記定義するステップと、
単語埋込みモデルをトレーニングするステップであって、前記単語埋込みモデルが、前記単語辞書内の各単語または行をベクトルで表すニューラル・ネットワーク・モデルである、前記トレーニングするステップとを実行させ、
前記テキスト文書を構文解析および前処理するステップが、
前記テキスト文書内の各行からすべての句読点およびプリアンブルを削除するステップと、
数値データを解析するステップと、
トークン化された単語リストを形成するために前記テキスト文書を単語でトークン化するステップであって、トークンが前記文書の単一の単語、N個の連続した単語のNグラム、または行全体のうちの1つである、前記トークン化するステップと、
前記トークン化された単語リストを返信するステップと
を含む、コンピュータ・プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/437,989 US11409754B2 (en) | 2019-06-11 | 2019-06-11 | NLP-based context-aware log mining for troubleshooting |
US16/437,989 | 2019-06-11 | ||
PCT/IB2020/054997 WO2020250064A1 (en) | 2019-06-11 | 2020-05-27 | Context-aware data mining |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2022536241A JP2022536241A (ja) | 2022-08-15 |
JPWO2020250064A5 true JPWO2020250064A5 (ja) | 2022-10-21 |
JP7481074B2 JP7481074B2 (ja) | 2024-05-10 |
Family
ID=73745061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021561867A Active JP7481074B2 (ja) | 2019-06-11 | 2020-05-27 | コンテキスト・アウェア・データ・マイニング |
Country Status (6)
Country | Link |
---|---|
US (1) | US11409754B2 (ja) |
JP (1) | JP7481074B2 (ja) |
CN (1) | CN113906445A (ja) |
DE (1) | DE112020002886T5 (ja) |
GB (1) | GB2599300A (ja) |
WO (1) | WO2020250064A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021005433A1 (ja) * | 2019-07-05 | 2021-01-14 | 株式会社半導体エネルギー研究所 | 読解支援システム及び読解支援方法 |
US20220350827A1 (en) * | 2019-10-03 | 2022-11-03 | Semiconductor Energy Laboratory Co., Ltd. | Document data processing method and document data processing system |
US20220138556A1 (en) * | 2020-11-04 | 2022-05-05 | Nvidia Corporation | Data log parsing system and method |
US20220224515A1 (en) * | 2021-01-10 | 2022-07-14 | Nec Corporation Of America | Multi-party computation (mpc) based key search in private data |
US11816242B2 (en) * | 2021-07-14 | 2023-11-14 | Capital One Services, Llc | Log compression and obfuscation using embeddings |
CN113792119A (zh) * | 2021-09-17 | 2021-12-14 | 平安科技(深圳)有限公司 | 一种文章原创度评价系统、方法、设备及介质 |
US20240089275A1 (en) * | 2022-09-09 | 2024-03-14 | International Business Machines Corporation | Log anomaly detection in continuous artificial intelligence for it operations |
CN116682543B (zh) * | 2023-08-03 | 2023-11-10 | 山东大学齐鲁医院 | 一种区域康复信息的共享方法及系统 |
Family Cites Families (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040254919A1 (en) * | 2003-06-13 | 2004-12-16 | Microsoft Corporation | Log parser |
US20050060643A1 (en) * | 2003-08-25 | 2005-03-17 | Miavia, Inc. | Document similarity detection and classification system |
US20060106793A1 (en) * | 2003-12-29 | 2006-05-18 | Ping Liang | Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation |
US20080040339A1 (en) * | 2006-08-07 | 2008-02-14 | Microsoft Corporation | Learning question paraphrases from log data |
US8036464B2 (en) * | 2007-09-07 | 2011-10-11 | Satyam Computer Services Limited | System and method for automatic segmentation of ASR transcripts |
US20090300054A1 (en) * | 2008-05-29 | 2009-12-03 | Kathleen Fisher | System for inferring data structures |
US8130667B2 (en) * | 2008-09-19 | 2012-03-06 | Texas Instruments Incorporated | Preamble group selection in random access of wireless networks |
US20110208715A1 (en) * | 2010-02-23 | 2011-08-25 | Microsoft Corporation | Automatically mining intents of a group of queries |
US9965129B2 (en) * | 2012-06-01 | 2018-05-08 | Excalibur Ip, Llc | Personalized content from indexed archives |
US9280520B2 (en) | 2012-08-02 | 2016-03-08 | American Express Travel Related Services Company, Inc. | Systems and methods for semantic information retrieval |
US9313091B1 (en) | 2013-09-26 | 2016-04-12 | Emc Corporation | Analytics platform for automated diagnosis, remediation, and proactive supportability |
US20160162467A1 (en) * | 2014-12-09 | 2016-06-09 | Idibon, Inc. | Methods and systems for language-agnostic machine learning in natural language processing using feature extraction |
IN2015CH01424A (ja) | 2015-03-20 | 2015-04-10 | Wipro Ltd | |
US20200402049A1 (en) * | 2015-06-11 | 2020-12-24 | APPI Technologia S/A (D.B.A. MUXI) | Antifraud Resilient Transaction Identifier Datastructure Apparatuses, Methods and Systems |
US10606946B2 (en) * | 2015-07-06 | 2020-03-31 | Microsoft Technology Licensing, Llc | Learning word embedding using morphological knowledge |
WO2017037801A1 (ja) * | 2015-08-28 | 2017-03-09 | 株式会社日立製作所 | 監視システムおよび監視方法 |
US9990353B2 (en) | 2015-12-22 | 2018-06-05 | Successfactors, Inc. | Natural language interface for software customization |
US10061845B2 (en) * | 2016-02-18 | 2018-08-28 | Fmr Llc | Analysis of unstructured computer text to generate themes and determine sentiment |
US10289509B2 (en) | 2016-04-06 | 2019-05-14 | Nec Corporation | System failure prediction using long short-term memory neural networks |
US10402495B1 (en) * | 2016-09-01 | 2019-09-03 | Facebook, Inc. | Abstractive sentence summarization |
WO2018092924A1 (ko) | 2016-11-15 | 2018-05-24 | (주) 글루시스 | 스마트 컴퓨팅을 위한 시스템 자원의 장애 예측 방법 |
US10789298B2 (en) * | 2016-11-16 | 2020-09-29 | International Business Machines Corporation | Specialist keywords recommendations in semantic space |
WO2018093904A1 (en) * | 2016-11-17 | 2018-05-24 | Goldman Sachs & Co. LLC | System and method for coupled detection of syntax and semantics for natural language understanding and generation |
US10740170B2 (en) | 2016-12-08 | 2020-08-11 | Nec Corporation | Structure-level anomaly detection for unstructured logs |
CN106777191B (zh) | 2016-12-23 | 2021-05-04 | 北京奇虎科技有限公司 | 一种基于搜索引擎的检索模式生成方法及装置 |
JP6543283B2 (ja) * | 2017-02-03 | 2019-07-10 | 日本電信電話株式会社 | パッセージ型質問応答装置、方法、及びプログラム |
US10474709B2 (en) * | 2017-04-14 | 2019-11-12 | Salesforce.Com, Inc. | Deep reinforced model for abstractive summarization |
US10565244B2 (en) * | 2017-06-22 | 2020-02-18 | NewVoiceMedia Ltd. | System and method for text categorization and sentiment analysis |
US20190043486A1 (en) * | 2017-08-04 | 2019-02-07 | EMR.AI Inc. | Method to aid transcribing a dictated to written structured report |
US10706229B2 (en) * | 2017-09-28 | 2020-07-07 | Nec Corporation | Content aware heterogeneous log pattern comparative analysis engine |
US10664512B1 (en) * | 2018-02-13 | 2020-05-26 | Snap Inc. | Query matching to media collections in a messaging system |
CN108399163B (zh) | 2018-03-21 | 2021-01-12 | 北京理工大学 | 结合词聚合与词组合语义特征的文本相似性度量方法 |
DE112019001497T5 (de) * | 2018-03-23 | 2021-01-07 | Semiconductor Energy Laboratory Co., Ltd. | System zur Dokumentensuche, Verfahren zur Dokumentensuche, Programm und nicht-transitorisches, von einem Computer lesbares Speichermedium |
US11120033B2 (en) * | 2018-05-16 | 2021-09-14 | Nec Corporation | Computer log retrieval based on multivariate log time series |
US10459962B1 (en) * | 2018-09-19 | 2019-10-29 | Servicenow, Inc. | Selectively generating word vector and paragraph vector representations of fields for machine learning |
US11562135B2 (en) * | 2018-10-16 | 2023-01-24 | Oracle International Corporation | Constructing conclusive answers for autonomous agents |
US10769378B2 (en) * | 2018-11-14 | 2020-09-08 | International Business Machines Corporation | Extending system entities for conversational system |
US11308320B2 (en) * | 2018-12-17 | 2022-04-19 | Cognition IP Technology Inc. | Multi-segment text search using machine learning model for text similarity |
US11080490B2 (en) * | 2019-03-28 | 2021-08-03 | Servicenow, Inc. | Pre-training of virtual chat interfaces |
US20200372550A1 (en) * | 2019-05-24 | 2020-11-26 | relemind GmbH | Systems for creating and/or maintaining databases and a system for facilitating online advertising with improved privacy |
-
2019
- 2019-06-11 US US16/437,989 patent/US11409754B2/en active Active
-
2020
- 2020-05-27 GB GB2117769.6A patent/GB2599300A/en not_active Withdrawn
- 2020-05-27 CN CN202080039160.0A patent/CN113906445A/zh active Pending
- 2020-05-27 JP JP2021561867A patent/JP7481074B2/ja active Active
- 2020-05-27 WO PCT/IB2020/054997 patent/WO2020250064A1/en active Application Filing
- 2020-05-27 DE DE112020002886.0T patent/DE112020002886T5/de active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
GB2599300A (en) | Context-aware data mining | |
CN106462604B (zh) | 识别查询意图 | |
US10210282B2 (en) | Search and retrieval of electronic documents using key-value based partition-by-query indices | |
US10296582B2 (en) | Method and apparatus for determining morpheme importance analysis model | |
US11017177B2 (en) | Neural network systems and methods for target identification from text | |
CN111767725B (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
US20120262461A1 (en) | System and Method for the Normalization of Text | |
US20130246386A1 (en) | Identifying key phrases within documents | |
CN102682120B (zh) | 一种网络评论精华文本的获取方法和装置 | |
JP2008181205A (ja) | 不均質な情報源からの情報トラッキングのためのシステム、方法およびコンピュータ実行可能プログラム | |
US20170193291A1 (en) | System and Methods for Determining Language Classification of Text Content in Documents | |
Rani et al. | Automatic construction of generic stop words list for Hindi text | |
CN102103416A (zh) | 一种汉字输入方法和装置 | |
JPWO2020250064A5 (ja) | ||
Rani et al. | A hybrid approach for automatic document summarization | |
CN112835923A (zh) | 一种相关检索方法、装置和设备 | |
CN114255067A (zh) | 数据定价方法和装置、电子设备、存储介质 | |
Asubiaro | Entropy-based generic stopwords list for Yoruba texts | |
US11361565B2 (en) | Natural language processing (NLP) pipeline for automated attribute extraction | |
Dianati et al. | Words stemming based on structural and semantic similarity | |
Huang et al. | An unsupervised method for short-text sentiment analysis based on analysis of massive data | |
CN111428472A (zh) | 一种基于自然语言处理及图像算法的文章自动生成系统和方法 | |
KR101351555B1 (ko) | 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템 | |
JP4499003B2 (ja) | 情報処理方法及び装置及びプログラム | |
CN113705217B (zh) | 一种面向电力领域知识学习的文献推荐方法及装置 |