RU2010111780A - Двухпроходное хеш извлечение текстовых строк - Google Patents

Двухпроходное хеш извлечение текстовых строк Download PDF

Info

Publication number
RU2010111780A
RU2010111780A RU2010111780/08A RU2010111780A RU2010111780A RU 2010111780 A RU2010111780 A RU 2010111780A RU 2010111780/08 A RU2010111780/08 A RU 2010111780/08A RU 2010111780 A RU2010111780 A RU 2010111780A RU 2010111780 A RU2010111780 A RU 2010111780A
Authority
RU
Russia
Prior art keywords
terms
dictionary
hash
generated
count values
Prior art date
Application number
RU2010111780/08A
Other languages
English (en)
Other versions
RU2464630C2 (ru
Inventor
Доминик ПАУЗИН (US)
Доминик ПАУЗИН
Original Assignee
Майкрософт Корпорейшн (Us)
Майкрософт Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Майкрософт Корпорейшн (Us), Майкрософт Корпорейшн filed Critical Майкрософт Корпорейшн (Us)
Publication of RU2010111780A publication Critical patent/RU2010111780A/ru
Application granted granted Critical
Publication of RU2464630C2 publication Critical patent/RU2464630C2/ru

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3084Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3084Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
    • H03M7/3088Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method employing the use of a dictionary, e.g. LZ78

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Document Processing Apparatus (AREA)

Abstract

1. Способ распознавания текста, содержащий этапы на которых: ! генерируют множество сгенерированных терминов (305), используемых в текстовой строке (105); ! вычисляют множество хеш значений из множества генерированных терминов (305); ! создают множество хеш сегментов (310), соответствующих множеству хеш значений; ! поддерживают множество значений счета происшествий, соответствующих множеству хеш сегментов (310), причем каждое из множества значений счета происшествий соответственно указывает число раз, которое каждый из множества генерированных терминов (305) происходит в текстовой строке (105), имеющей хеш значение, которое соответствует множеству хеш сегментов значений счета происшествий; ! сбрасывают те из множества хеш сегментов (310), которые имеют соответствующие значения счета происшествий меньше, чем первое предопределенное значение; и ! добавляют термины словаря в словарь (120), термины словаря содержат те из множества сгенерированных терминов (305), имеющие соответствующие хеш значения, соответствующие любому из множества хеш значений, соответствующих оставшемуся множеству хеш сегментов (310), причем словарь (120) включает в себя множество значений счета частоты, соответствующе указывающих число раз, которое каждый из терминов словаря произошел в текстовой строке (105). ! 2. Способ по п.1, дополнительно содержащий этап, на котором ранжируют термины словаря. ! 3. Способ по п.1, дополнительно содержащий этап, на котором ранжируют термины словаря, с использованием функции оценки. ! 4. Способ по п.1, дополнительно содержащий этап, на котором ранжируют термины словаря, с использованием функции оценки, сконфигурированной для сжати

Claims (20)

1. Способ распознавания текста, содержащий этапы на которых:
генерируют множество сгенерированных терминов (305), используемых в текстовой строке (105);
вычисляют множество хеш значений из множества генерированных терминов (305);
создают множество хеш сегментов (310), соответствующих множеству хеш значений;
поддерживают множество значений счета происшествий, соответствующих множеству хеш сегментов (310), причем каждое из множества значений счета происшествий соответственно указывает число раз, которое каждый из множества генерированных терминов (305) происходит в текстовой строке (105), имеющей хеш значение, которое соответствует множеству хеш сегментов значений счета происшествий;
сбрасывают те из множества хеш сегментов (310), которые имеют соответствующие значения счета происшествий меньше, чем первое предопределенное значение; и
добавляют термины словаря в словарь (120), термины словаря содержат те из множества сгенерированных терминов (305), имеющие соответствующие хеш значения, соответствующие любому из множества хеш значений, соответствующих оставшемуся множеству хеш сегментов (310), причем словарь (120) включает в себя множество значений счета частоты, соответствующе указывающих число раз, которое каждый из терминов словаря произошел в текстовой строке (105).
2. Способ по п.1, дополнительно содержащий этап, на котором ранжируют термины словаря.
3. Способ по п.1, дополнительно содержащий этап, на котором ранжируют термины словаря, с использованием функции оценки.
4. Способ по п.1, дополнительно содержащий этап, на котором ранжируют термины словаря, с использованием функции оценки, сконфигурированной для сжатия данных.
5. Способ по п.1, дополнительно содержащий этап, на котором ранжируют термины словаря, с использованием функции оценки, сконфигурированной для сжатия данных, в котором термины словаря ранжируют на основе множества соответствующих индексов, соответствующих каждому термину словаря, причем каждый из множества индексов соответствующе содержит значение счета частоты каждого соответствующего термина словаря, умноженного на длину каждого соответствующего термина словаря.
6. Способ по п.1, дополнительно содержащий этап, на котором ранжируют термины словаря, с использованием функции оценки, сконфигурированной для распознавания ключевого слова.
7. Способ по п.1, дополнительно содержащий этап, на котором ранжируют термины словаря, с использованием функции оценки, сконфигурированной для распознавания ключевого слова, в котором термины словаря ранжируют на основе соответствующих значений счета частоты.
8. Способ по п.1, дополнительно содержащий этап, на котором используют словарь (120) для определения того, какой из сгенерированных терминов (305) сжать в текстовой строке (105).
9. Способ по п.1, дополнительно содержащий этап, на котором используют словарь (120) для определения того, какие из сгенерированных терминов (305) характеризовать как ключевые слова.
10. Способ по п.1, дополнительно содержащий этап, на котором удаляют термины словаря из словаря (120), имеющие соответствующие значения счета частоты меньше, чем второе предопределенное значение.
11. Способ по п.1, в котором этап, на котором генерируют множество сгенерированных терминов (305), используемых в текстовой строке (105), заключается в том, что генерируют множество сгенерированных терминов (305), используемых в текстовой строке (105), причем каждый из множества сгенерированных терминов (305) содержит индивидуальные строки.
12. Способ по п.1, в котором этап, на котором генерируют множество сгенерированных терминов (305), используемых в текстовой строке (105), заключается в том, что генерируют множество сгенерированных терминов (305), используемых в текстовой строке (105), причем, по меньшей мере, часть множества сгенерированных терминов (305) содержит подстроки.
13. Способ по п.1, в котором этап, на котором вычисляют множество хеш значений из множества сгенерированных терминов (305), заключается в том, что вычисляют множество хеш значений на основе идеального хеш алгоритма.
14. Компьютерочитаемый носитель, хранящий набор команд, которые, будучи исполненными, выполняют способ распознавания текста, причем способ, исполняемый набором команд, содержит этапы на которых:
создают множество хеш сегментов (310), соответствующих множеству хеш значений, соответствующих множеству сгенерированных терминов (305) в текстовой строке (105), причем, по меньшей мере, часть множества сгенерированных терминов (305) содержит подстроки;
поддерживают множество значений счета происшествий соответствующих множеству хеш сегментов (310), причем каждое из множества значений счета происшествий соответственно указывает число раз, которое каждый из множества генерированных терминов (305) происходит в текстовой строке (105), имеющей хеш значение, которое соответствует множеству хеш сегментов значений счета происшествий;
сбрасывают те из множества хеш сегментов (310), которые имеют соответствующие значения счета происшествий меньше, чем первое предопределенное значение;
добавляют термины словаря в словарь (120), термины словаря содержат те из множества сгенерированных терминов (305), имеющие соответствующие хеш значения, соответствующие любому из множества хеш значений, соответствующих оставшемуся множеству хеш сегментов (310), причем словарь (120) включает в себя множество значений счета частоты, соответствующе указывающих число раз, которое каждый из терминов словаря произошел в текстовой строке (105), и
ранжируют термины словаря с использованием функции оценки, сконфигурированной для сжатия данных, причем термины словаря ранжируют на основе множества соответствующих индексов, соответствующих каждому термину словаря, причем каждый из множества индексов соответственно содержит значение счета частоты каждого соответствующего термина словаря, умноженного на длину каждого соответствующего термина словаря.
15. Компьютерочитаемый носитель по п.14, дополнительно содержащий этап, на котором используют словарь (120) для определения того, какой из сгенерированных терминов (305) сжать в текстовой строке (105).
16. Компьютерочитаемый носитель по п.14, дополнительно содержащий этап, на котором удаляют термины словаря из словаря (120), которые имеют соответствующие значения счета частоты меньше, чем второе предопределенное значение.
17. Компьютерочитаемый носитель по п.14, дополнительно содержащий этап, на котором вычисляют множество хеш значений на основе идеального хеш алгоритма.
18. Система распознания текста, содержащая:
хранилище памяти, и
блок обработки, соединенный с хранилищем памяти, причем блок обработки выполнен с возможностью:
создания множества хеш сегментов (310) соответствующих множеству хеш значений, соответствующих множеству сгенерированных терминов (305) в текстовой строке (105), причем каждый из множества сгенерированных терминов (305) содержит индивидуальные строки;
поддержания множества значений счета происшествий соответствующего множеству хеш сегментов (310), причем каждое из множества значений счета происшествий соответственно указывает число раз, которое каждый из множества генерированных терминов (305) происходит в текстовой строке (105), имеющей хеш значение, которое соответствует множеству хеш сегментов значений счета происшествий;
сброса тех из множества хеш сегментов (310), которые имеют соответствующие значения счета происшествий меньше, чем первое предопределенное значение;
добавления терминов словаря в словарь (120), термины словаря содержат те из множества сгенерированных терминов (305), имеющие соответствующие хеш значения, соответствующие любому из множества хеш значений, соответствующих оставшемуся множеству хеш сегментов (310), причем словарь (120) включает в себя множество значений счета частоты, соответствующе указывающих число раз, которое каждый из терминов словаря произошел в текстовой строке (105), и
ранжирования терминов словаря с использованием функции оценки, сконфигурированной для распознавания ключевого слова, причем термины словаря ранжируют на основе их соответствующих значений счета частоты.
19. Система по п.18, в которой блок обработки дополнительно выполнен с возможностью удаления терминов словаря из словаря (120), которые имеют соответствующие значения счета частоты меньше, чем второе предопределенное значение.
20. Система по п.18, в которой блок обработки дополнительно выполнен с возможностью вычисления множества хеш значений на основе идеального алгоритма.
RU2010111780/08A 2007-09-28 2008-08-28 Двухпроходное хеш извлечение текстовых строк RU2464630C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/863,680 2007-09-28
US11/863,680 US8078454B2 (en) 2007-09-28 2007-09-28 Two-pass hash extraction of text strings

Publications (2)

Publication Number Publication Date
RU2010111780A true RU2010111780A (ru) 2011-10-10
RU2464630C2 RU2464630C2 (ru) 2012-10-20

Family

ID=40509367

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2010111780/08A RU2464630C2 (ru) 2007-09-28 2008-08-28 Двухпроходное хеш извлечение текстовых строк

Country Status (8)

Country Link
US (1) US8078454B2 (ru)
EP (1) EP2193454A2 (ru)
JP (1) JP2011501837A (ru)
KR (1) KR101515660B1 (ru)
CN (1) CN101809567B (ru)
BR (1) BRPI0816164A2 (ru)
RU (1) RU2464630C2 (ru)
WO (1) WO2009045668A2 (ru)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8811431B2 (en) 2008-11-20 2014-08-19 Silver Peak Systems, Inc. Systems and methods for compressing packet data
US8489562B1 (en) 2007-11-30 2013-07-16 Silver Peak Systems, Inc. Deferred data storage
US8929402B1 (en) * 2005-09-29 2015-01-06 Silver Peak Systems, Inc. Systems and methods for compressing packet data by predicting subsequent data
US8731954B2 (en) 2006-03-27 2014-05-20 A-Life Medical, Llc Auditing the coding and abstracting of documents
US8755381B2 (en) 2006-08-02 2014-06-17 Silver Peak Systems, Inc. Data matching using flow based packet data storage
US8885632B2 (en) 2006-08-02 2014-11-11 Silver Peak Systems, Inc. Communications scheduler
US7908552B2 (en) 2007-04-13 2011-03-15 A-Life Medical Inc. Mere-parsing with boundary and semantic driven scoping
US8682823B2 (en) 2007-04-13 2014-03-25 A-Life Medical, Llc Multi-magnitudinal vectors with resolution based on source vector features
US9946846B2 (en) 2007-08-03 2018-04-17 A-Life Medical, Llc Visualizing the documentation and coding of surgical procedures
US8307115B1 (en) 2007-11-30 2012-11-06 Silver Peak Systems, Inc. Network memory mirroring
US8250536B2 (en) * 2007-12-24 2012-08-21 Hewlett-Packard Development Company, L.P. Analysis of a legacy source code application
US10805840B2 (en) 2008-07-03 2020-10-13 Silver Peak Systems, Inc. Data transmission via a virtual wide area network overlay
US8743683B1 (en) 2008-07-03 2014-06-03 Silver Peak Systems, Inc. Quality of service using multiple flows
US9717021B2 (en) 2008-07-03 2017-07-25 Silver Peak Systems, Inc. Virtual network overlay
US10164861B2 (en) 2015-12-28 2018-12-25 Silver Peak Systems, Inc. Dynamic monitoring and visualization for network health characteristics
US8341415B1 (en) * 2008-08-04 2012-12-25 Zscaler, Inc. Phrase matching
US9342621B1 (en) * 2008-08-04 2016-05-17 Zscaler, Inc. Phrase matching
WO2011091581A1 (zh) * 2010-01-26 2011-08-04 华为技术有限公司 关键字存储、查找的方法及装置
US9129007B2 (en) 2010-11-10 2015-09-08 Microsoft Technology Licensing, Llc Indexing and querying hash sequence matrices
US8881113B2 (en) * 2011-08-01 2014-11-04 Salesforce.Com, Inc. Contextual exception management in multi-tenant systems
US9130991B2 (en) 2011-10-14 2015-09-08 Silver Peak Systems, Inc. Processing data packets in performance enhancing proxy (PEP) environment
US9626224B2 (en) 2011-11-03 2017-04-18 Silver Peak Systems, Inc. Optimizing available computing resources within a virtual environment
US9306794B2 (en) * 2012-11-02 2016-04-05 Brocade Communications Systems, Inc. Algorithm for long-lived large flow identification
US9171063B2 (en) * 2013-03-13 2015-10-27 Facebook, Inc. Short-term hashes
US10541053B2 (en) 2013-09-05 2020-01-21 Optum360, LLCq Automated clinical indicator recognition with natural language processing
US10133727B2 (en) 2013-10-01 2018-11-20 A-Life Medical, Llc Ontologically driven procedure coding
US9948496B1 (en) 2014-07-30 2018-04-17 Silver Peak Systems, Inc. Determining a transit appliance for data traffic to a software service
US9875344B1 (en) 2014-09-05 2018-01-23 Silver Peak Systems, Inc. Dynamic monitoring and authorization of an optimization device
US20170011093A1 (en) * 2014-10-30 2017-01-12 Quantifind, Inc. Apparatuses, methods and systems for efficient ad-hoc querying of distributed data
KR101705461B1 (ko) * 2015-08-28 2017-02-09 서울과학기술대학교 산학협력단 문자열 압축 및 해제를 위한 방법 및 장치
US10922347B2 (en) * 2016-01-28 2021-02-16 Hyland Switzerland Sàrl Hierarchical dictionary with statistical filtering based on word frequency
US9594741B1 (en) * 2016-06-12 2017-03-14 Apple Inc. Learning new words
US10432484B2 (en) 2016-06-13 2019-10-01 Silver Peak Systems, Inc. Aggregating select network traffic statistics
US9967056B1 (en) 2016-08-19 2018-05-08 Silver Peak Systems, Inc. Forward packet recovery with constrained overhead
US10771394B2 (en) 2017-02-06 2020-09-08 Silver Peak Systems, Inc. Multi-level learning for classifying traffic flows on a first packet from DNS data
US10257082B2 (en) 2017-02-06 2019-04-09 Silver Peak Systems, Inc. Multi-level learning for classifying traffic flows
US10892978B2 (en) 2017-02-06 2021-01-12 Silver Peak Systems, Inc. Multi-level learning for classifying traffic flows from first packet data
US11044202B2 (en) 2017-02-06 2021-06-22 Silver Peak Systems, Inc. Multi-level learning for predicting and classifying traffic flows from first packet data
US20220107919A1 (en) * 2017-05-19 2022-04-07 Takashi Suzuki Computerized systems and methods of data compression
US11212210B2 (en) 2017-09-21 2021-12-28 Silver Peak Systems, Inc. Selective route exporting using source type
US10637721B2 (en) 2018-03-12 2020-04-28 Silver Peak Systems, Inc. Detecting path break conditions while minimizing network overhead
CN110032432B (zh) * 2018-12-03 2023-09-26 创新先进技术有限公司 实例的压缩方法和装置、实例的解压方法和装置
CN109828789B (zh) * 2019-01-30 2020-11-27 上海兆芯集成电路有限公司 加速压缩方法以及加速压缩装置
US20210127999A1 (en) 2019-11-05 2021-05-06 Biosense Webster (Israel) Ltd. Using Statistical Characteristics of Multiple Grouped ECG Signals to Detect Inconsistent Signals
US11366991B2 (en) 2019-11-05 2022-06-21 Biosense Webster (Israel) Ltd Optimizing mapping of ECG signals retrospectively by detecting inconsistency
EP4123490A4 (en) * 2020-03-18 2023-08-23 Sony Group Corporation DATA PROCESSING DEVICE, DATA PROCESSING METHOD, DATA PROCESSING PROGRAM, DATA EXTRACTION DEVICE, DATA EXTRACTION METHOD AND DATA EXTRACTION PROGRAM
CN113407363B (zh) * 2021-06-23 2024-05-17 京东科技控股股份有限公司 一种基于远程字典服务的滑窗计数方法及装置

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4843389A (en) * 1986-12-04 1989-06-27 International Business Machines Corp. Text compression and expansion method and apparatus
US5287499A (en) * 1989-03-22 1994-02-15 Bell Communications Research, Inc. Methods and apparatus for information storage and retrieval utilizing a method of hashing and different collision avoidance schemes depending upon clustering in the hash table
US5333313A (en) 1990-10-22 1994-07-26 Franklin Electronic Publishers, Incorporated Method and apparatus for compressing a dictionary database by partitioning a master dictionary database into a plurality of functional parts and applying an optimum compression technique to each part
US5561421A (en) 1994-07-28 1996-10-01 International Business Machines Corporation Access method data compression with system-built generic dictionaries
JP3566441B2 (ja) 1996-01-30 2004-09-15 シャープ株式会社 テキスト圧縮用辞書作成装置
US5861827A (en) 1996-07-24 1999-01-19 Unisys Corporation Data compression and decompression system with immediate dictionary updating interleaved with string search
US5951623A (en) 1996-08-06 1999-09-14 Reynar; Jeffrey C. Lempel- Ziv data compression technique utilizing a dictionary pre-filled with frequent letter combinations, words and/or phrases
US7451075B2 (en) * 2000-12-29 2008-11-11 Microsoft Corporation Compressed speech lexicon and method and apparatus for creating and accessing the speech lexicon
US6606040B2 (en) 2001-02-13 2003-08-12 Mosaid Technologies, Inc. Method and apparatus for adaptive data compression
US7032174B2 (en) 2001-03-27 2006-04-18 Microsoft Corporation Automatically adding proper names to a database
US7031910B2 (en) 2001-10-16 2006-04-18 Xerox Corporation Method and system for encoding and accessing linguistic frequency data
FI114051B (fi) 2001-11-12 2004-07-30 Nokia Corp Menetelmä sanakirjatiedon kompressoimiseksi
US7406659B2 (en) 2001-11-26 2008-07-29 Microsoft Corporation Smart links
US20030125929A1 (en) 2001-12-10 2003-07-03 Thomas Bergstraesser Services for context-sensitive flagging of information in natural language text and central management of metadata relating that information over a computer network
US7003522B1 (en) 2002-06-24 2006-02-21 Microsoft Corporation System and method for incorporating smart tags in online content
US20040006547A1 (en) * 2002-07-03 2004-01-08 Dehlinger Peter J. Text-processing database
KR100459379B1 (ko) * 2002-07-30 2004-12-03 주식회사 모비젠 유사 전자문서 판단을 위한 기초데이터 생성방법 및 그시스템
US7885963B2 (en) * 2003-03-24 2011-02-08 Microsoft Corporation Free text and attribute searching of electronic program guide (EPG) data
US20050027731A1 (en) 2003-07-30 2005-02-03 Daniel Revel Compression dictionaries
RU2266560C1 (ru) * 2004-04-28 2005-12-20 Федеральное государственное унитарное предприятие "Институт промышленного развития "Информэлектро" Способ поиска информации в политематических массивах неструктурированных текстов
JP4618083B2 (ja) 2005-09-29 2011-01-26 沖電気工業株式会社 文書処理装置および文書処理方法
JP4172801B2 (ja) * 2005-12-02 2008-10-29 インターナショナル・ビジネス・マシーンズ・コーポレーション テキストからキーワードを検索する効率的なシステム、および、その方法
CN1877625A (zh) * 2006-07-17 2006-12-13 吴建明 一种纸文件数字签名防伪方法
US20080065639A1 (en) * 2006-08-25 2008-03-13 Netfortis, Inc. String matching engine
US7403137B1 (en) * 2007-03-30 2008-07-22 Juniper Networks, Inc. Memory efficient indexing for disk-based compression

Also Published As

Publication number Publication date
US8078454B2 (en) 2011-12-13
EP2193454A2 (en) 2010-06-09
BRPI0816164A2 (pt) 2015-02-24
RU2464630C2 (ru) 2012-10-20
CN101809567A (zh) 2010-08-18
JP2011501837A (ja) 2011-01-13
WO2009045668A2 (en) 2009-04-09
KR101515660B1 (ko) 2015-04-27
CN101809567B (zh) 2012-08-22
WO2009045668A3 (en) 2009-05-28
KR20100059901A (ko) 2010-06-04
US20090089048A1 (en) 2009-04-02

Similar Documents

Publication Publication Date Title
RU2010111780A (ru) Двухпроходное хеш извлечение текстовых строк
US9390711B2 (en) Information recognition method and apparatus
CN109471933B (zh) 一种文本摘要的生成方法、存储介质和服务器
JP2021523464A5 (ru)
CN110941959B (zh) 文本违规检测、文本还原方法、数据处理方法及设备
Basu et al. Effective text classification by a supervised feature selection approach
US8037069B2 (en) Membership checking of digital text
CN110110322A (zh) 网络新词发现方法、装置、电子设备及存储介质
US20110072011A1 (en) Method and system for scoring texts
CN107229627B (zh) 一种文本处理方法、装置及计算设备
JP2020500371A5 (ru)
WO2009058625A1 (en) Dynamic reduction of dimensions of a document vector in a document search and retrieval system
CN102682085A (zh) 一种网页去重的方法
CN106469097B (zh) 一种基于人工智能的召回纠错候选的方法和装置
CN106909575B (zh) 文本聚类方法和装置
CN113836938A (zh) 文本相似度的计算方法及装置、存储介质、电子装置
RU2008114801A (ru) Способ поиска информации в массиве текстов
CN105653553B (zh) 词权重生成方法和装置
Pande et al. Application of natural language processing tools in stemming
Rodriguez et al. Comparison of information retrieval techniques for traceability link recovery
Van Halteren Chunking with WPDV models
CN109670153B (zh) 一种相似帖子的确定方法、装置、存储介质及终端
US10474700B2 (en) Robust stream filtering based on reference document
Dianati et al. Words stemming based on structural and semantic similarity
Siddiqi et al. Keyword and keyphrase extraction from single Hindi document using statistical approach

Legal Events

Date Code Title Description
PC41 Official registration of the transfer of exclusive right

Effective date: 20150526

MM4A The patent is invalid due to non-payment of fees

Effective date: 20190829