RU2010111780A - Двухпроходное хеш извлечение текстовых строк - Google Patents
Двухпроходное хеш извлечение текстовых строк Download PDFInfo
- Publication number
- RU2010111780A RU2010111780A RU2010111780/08A RU2010111780A RU2010111780A RU 2010111780 A RU2010111780 A RU 2010111780A RU 2010111780/08 A RU2010111780/08 A RU 2010111780/08A RU 2010111780 A RU2010111780 A RU 2010111780A RU 2010111780 A RU2010111780 A RU 2010111780A
- Authority
- RU
- Russia
- Prior art keywords
- terms
- dictionary
- hash
- generated
- count values
- Prior art date
Links
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3084—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3084—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
- H03M7/3088—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method employing the use of a dictionary, e.g. LZ78
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Document Processing Apparatus (AREA)
Abstract
1. Способ распознавания текста, содержащий этапы на которых: ! генерируют множество сгенерированных терминов (305), используемых в текстовой строке (105); ! вычисляют множество хеш значений из множества генерированных терминов (305); ! создают множество хеш сегментов (310), соответствующих множеству хеш значений; ! поддерживают множество значений счета происшествий, соответствующих множеству хеш сегментов (310), причем каждое из множества значений счета происшествий соответственно указывает число раз, которое каждый из множества генерированных терминов (305) происходит в текстовой строке (105), имеющей хеш значение, которое соответствует множеству хеш сегментов значений счета происшествий; ! сбрасывают те из множества хеш сегментов (310), которые имеют соответствующие значения счета происшествий меньше, чем первое предопределенное значение; и ! добавляют термины словаря в словарь (120), термины словаря содержат те из множества сгенерированных терминов (305), имеющие соответствующие хеш значения, соответствующие любому из множества хеш значений, соответствующих оставшемуся множеству хеш сегментов (310), причем словарь (120) включает в себя множество значений счета частоты, соответствующе указывающих число раз, которое каждый из терминов словаря произошел в текстовой строке (105). ! 2. Способ по п.1, дополнительно содержащий этап, на котором ранжируют термины словаря. ! 3. Способ по п.1, дополнительно содержащий этап, на котором ранжируют термины словаря, с использованием функции оценки. ! 4. Способ по п.1, дополнительно содержащий этап, на котором ранжируют термины словаря, с использованием функции оценки, сконфигурированной для сжати
Claims (20)
1. Способ распознавания текста, содержащий этапы на которых:
генерируют множество сгенерированных терминов (305), используемых в текстовой строке (105);
вычисляют множество хеш значений из множества генерированных терминов (305);
создают множество хеш сегментов (310), соответствующих множеству хеш значений;
поддерживают множество значений счета происшествий, соответствующих множеству хеш сегментов (310), причем каждое из множества значений счета происшествий соответственно указывает число раз, которое каждый из множества генерированных терминов (305) происходит в текстовой строке (105), имеющей хеш значение, которое соответствует множеству хеш сегментов значений счета происшествий;
сбрасывают те из множества хеш сегментов (310), которые имеют соответствующие значения счета происшествий меньше, чем первое предопределенное значение; и
добавляют термины словаря в словарь (120), термины словаря содержат те из множества сгенерированных терминов (305), имеющие соответствующие хеш значения, соответствующие любому из множества хеш значений, соответствующих оставшемуся множеству хеш сегментов (310), причем словарь (120) включает в себя множество значений счета частоты, соответствующе указывающих число раз, которое каждый из терминов словаря произошел в текстовой строке (105).
2. Способ по п.1, дополнительно содержащий этап, на котором ранжируют термины словаря.
3. Способ по п.1, дополнительно содержащий этап, на котором ранжируют термины словаря, с использованием функции оценки.
4. Способ по п.1, дополнительно содержащий этап, на котором ранжируют термины словаря, с использованием функции оценки, сконфигурированной для сжатия данных.
5. Способ по п.1, дополнительно содержащий этап, на котором ранжируют термины словаря, с использованием функции оценки, сконфигурированной для сжатия данных, в котором термины словаря ранжируют на основе множества соответствующих индексов, соответствующих каждому термину словаря, причем каждый из множества индексов соответствующе содержит значение счета частоты каждого соответствующего термина словаря, умноженного на длину каждого соответствующего термина словаря.
6. Способ по п.1, дополнительно содержащий этап, на котором ранжируют термины словаря, с использованием функции оценки, сконфигурированной для распознавания ключевого слова.
7. Способ по п.1, дополнительно содержащий этап, на котором ранжируют термины словаря, с использованием функции оценки, сконфигурированной для распознавания ключевого слова, в котором термины словаря ранжируют на основе соответствующих значений счета частоты.
8. Способ по п.1, дополнительно содержащий этап, на котором используют словарь (120) для определения того, какой из сгенерированных терминов (305) сжать в текстовой строке (105).
9. Способ по п.1, дополнительно содержащий этап, на котором используют словарь (120) для определения того, какие из сгенерированных терминов (305) характеризовать как ключевые слова.
10. Способ по п.1, дополнительно содержащий этап, на котором удаляют термины словаря из словаря (120), имеющие соответствующие значения счета частоты меньше, чем второе предопределенное значение.
11. Способ по п.1, в котором этап, на котором генерируют множество сгенерированных терминов (305), используемых в текстовой строке (105), заключается в том, что генерируют множество сгенерированных терминов (305), используемых в текстовой строке (105), причем каждый из множества сгенерированных терминов (305) содержит индивидуальные строки.
12. Способ по п.1, в котором этап, на котором генерируют множество сгенерированных терминов (305), используемых в текстовой строке (105), заключается в том, что генерируют множество сгенерированных терминов (305), используемых в текстовой строке (105), причем, по меньшей мере, часть множества сгенерированных терминов (305) содержит подстроки.
13. Способ по п.1, в котором этап, на котором вычисляют множество хеш значений из множества сгенерированных терминов (305), заключается в том, что вычисляют множество хеш значений на основе идеального хеш алгоритма.
14. Компьютерочитаемый носитель, хранящий набор команд, которые, будучи исполненными, выполняют способ распознавания текста, причем способ, исполняемый набором команд, содержит этапы на которых:
создают множество хеш сегментов (310), соответствующих множеству хеш значений, соответствующих множеству сгенерированных терминов (305) в текстовой строке (105), причем, по меньшей мере, часть множества сгенерированных терминов (305) содержит подстроки;
поддерживают множество значений счета происшествий соответствующих множеству хеш сегментов (310), причем каждое из множества значений счета происшествий соответственно указывает число раз, которое каждый из множества генерированных терминов (305) происходит в текстовой строке (105), имеющей хеш значение, которое соответствует множеству хеш сегментов значений счета происшествий;
сбрасывают те из множества хеш сегментов (310), которые имеют соответствующие значения счета происшествий меньше, чем первое предопределенное значение;
добавляют термины словаря в словарь (120), термины словаря содержат те из множества сгенерированных терминов (305), имеющие соответствующие хеш значения, соответствующие любому из множества хеш значений, соответствующих оставшемуся множеству хеш сегментов (310), причем словарь (120) включает в себя множество значений счета частоты, соответствующе указывающих число раз, которое каждый из терминов словаря произошел в текстовой строке (105), и
ранжируют термины словаря с использованием функции оценки, сконфигурированной для сжатия данных, причем термины словаря ранжируют на основе множества соответствующих индексов, соответствующих каждому термину словаря, причем каждый из множества индексов соответственно содержит значение счета частоты каждого соответствующего термина словаря, умноженного на длину каждого соответствующего термина словаря.
15. Компьютерочитаемый носитель по п.14, дополнительно содержащий этап, на котором используют словарь (120) для определения того, какой из сгенерированных терминов (305) сжать в текстовой строке (105).
16. Компьютерочитаемый носитель по п.14, дополнительно содержащий этап, на котором удаляют термины словаря из словаря (120), которые имеют соответствующие значения счета частоты меньше, чем второе предопределенное значение.
17. Компьютерочитаемый носитель по п.14, дополнительно содержащий этап, на котором вычисляют множество хеш значений на основе идеального хеш алгоритма.
18. Система распознания текста, содержащая:
хранилище памяти, и
блок обработки, соединенный с хранилищем памяти, причем блок обработки выполнен с возможностью:
создания множества хеш сегментов (310) соответствующих множеству хеш значений, соответствующих множеству сгенерированных терминов (305) в текстовой строке (105), причем каждый из множества сгенерированных терминов (305) содержит индивидуальные строки;
поддержания множества значений счета происшествий соответствующего множеству хеш сегментов (310), причем каждое из множества значений счета происшествий соответственно указывает число раз, которое каждый из множества генерированных терминов (305) происходит в текстовой строке (105), имеющей хеш значение, которое соответствует множеству хеш сегментов значений счета происшествий;
сброса тех из множества хеш сегментов (310), которые имеют соответствующие значения счета происшествий меньше, чем первое предопределенное значение;
добавления терминов словаря в словарь (120), термины словаря содержат те из множества сгенерированных терминов (305), имеющие соответствующие хеш значения, соответствующие любому из множества хеш значений, соответствующих оставшемуся множеству хеш сегментов (310), причем словарь (120) включает в себя множество значений счета частоты, соответствующе указывающих число раз, которое каждый из терминов словаря произошел в текстовой строке (105), и
ранжирования терминов словаря с использованием функции оценки, сконфигурированной для распознавания ключевого слова, причем термины словаря ранжируют на основе их соответствующих значений счета частоты.
19. Система по п.18, в которой блок обработки дополнительно выполнен с возможностью удаления терминов словаря из словаря (120), которые имеют соответствующие значения счета частоты меньше, чем второе предопределенное значение.
20. Система по п.18, в которой блок обработки дополнительно выполнен с возможностью вычисления множества хеш значений на основе идеального алгоритма.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/863,680 | 2007-09-28 | ||
US11/863,680 US8078454B2 (en) | 2007-09-28 | 2007-09-28 | Two-pass hash extraction of text strings |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2010111780A true RU2010111780A (ru) | 2011-10-10 |
RU2464630C2 RU2464630C2 (ru) | 2012-10-20 |
Family
ID=40509367
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2010111780/08A RU2464630C2 (ru) | 2007-09-28 | 2008-08-28 | Двухпроходное хеш извлечение текстовых строк |
Country Status (8)
Country | Link |
---|---|
US (1) | US8078454B2 (ru) |
EP (1) | EP2193454A2 (ru) |
JP (1) | JP2011501837A (ru) |
KR (1) | KR101515660B1 (ru) |
CN (1) | CN101809567B (ru) |
BR (1) | BRPI0816164A2 (ru) |
RU (1) | RU2464630C2 (ru) |
WO (1) | WO2009045668A2 (ru) |
Families Citing this family (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8811431B2 (en) | 2008-11-20 | 2014-08-19 | Silver Peak Systems, Inc. | Systems and methods for compressing packet data |
US8489562B1 (en) | 2007-11-30 | 2013-07-16 | Silver Peak Systems, Inc. | Deferred data storage |
US8929402B1 (en) * | 2005-09-29 | 2015-01-06 | Silver Peak Systems, Inc. | Systems and methods for compressing packet data by predicting subsequent data |
US8731954B2 (en) | 2006-03-27 | 2014-05-20 | A-Life Medical, Llc | Auditing the coding and abstracting of documents |
US8755381B2 (en) | 2006-08-02 | 2014-06-17 | Silver Peak Systems, Inc. | Data matching using flow based packet data storage |
US8885632B2 (en) | 2006-08-02 | 2014-11-11 | Silver Peak Systems, Inc. | Communications scheduler |
US7908552B2 (en) | 2007-04-13 | 2011-03-15 | A-Life Medical Inc. | Mere-parsing with boundary and semantic driven scoping |
US8682823B2 (en) | 2007-04-13 | 2014-03-25 | A-Life Medical, Llc | Multi-magnitudinal vectors with resolution based on source vector features |
US9946846B2 (en) | 2007-08-03 | 2018-04-17 | A-Life Medical, Llc | Visualizing the documentation and coding of surgical procedures |
US8307115B1 (en) | 2007-11-30 | 2012-11-06 | Silver Peak Systems, Inc. | Network memory mirroring |
US8250536B2 (en) * | 2007-12-24 | 2012-08-21 | Hewlett-Packard Development Company, L.P. | Analysis of a legacy source code application |
US10805840B2 (en) | 2008-07-03 | 2020-10-13 | Silver Peak Systems, Inc. | Data transmission via a virtual wide area network overlay |
US8743683B1 (en) | 2008-07-03 | 2014-06-03 | Silver Peak Systems, Inc. | Quality of service using multiple flows |
US9717021B2 (en) | 2008-07-03 | 2017-07-25 | Silver Peak Systems, Inc. | Virtual network overlay |
US10164861B2 (en) | 2015-12-28 | 2018-12-25 | Silver Peak Systems, Inc. | Dynamic monitoring and visualization for network health characteristics |
US8341415B1 (en) * | 2008-08-04 | 2012-12-25 | Zscaler, Inc. | Phrase matching |
US9342621B1 (en) * | 2008-08-04 | 2016-05-17 | Zscaler, Inc. | Phrase matching |
WO2011091581A1 (zh) * | 2010-01-26 | 2011-08-04 | 华为技术有限公司 | 关键字存储、查找的方法及装置 |
US9129007B2 (en) | 2010-11-10 | 2015-09-08 | Microsoft Technology Licensing, Llc | Indexing and querying hash sequence matrices |
US8881113B2 (en) * | 2011-08-01 | 2014-11-04 | Salesforce.Com, Inc. | Contextual exception management in multi-tenant systems |
US9130991B2 (en) | 2011-10-14 | 2015-09-08 | Silver Peak Systems, Inc. | Processing data packets in performance enhancing proxy (PEP) environment |
US9626224B2 (en) | 2011-11-03 | 2017-04-18 | Silver Peak Systems, Inc. | Optimizing available computing resources within a virtual environment |
US9306794B2 (en) * | 2012-11-02 | 2016-04-05 | Brocade Communications Systems, Inc. | Algorithm for long-lived large flow identification |
US9171063B2 (en) * | 2013-03-13 | 2015-10-27 | Facebook, Inc. | Short-term hashes |
US10541053B2 (en) | 2013-09-05 | 2020-01-21 | Optum360, LLCq | Automated clinical indicator recognition with natural language processing |
US10133727B2 (en) | 2013-10-01 | 2018-11-20 | A-Life Medical, Llc | Ontologically driven procedure coding |
US9948496B1 (en) | 2014-07-30 | 2018-04-17 | Silver Peak Systems, Inc. | Determining a transit appliance for data traffic to a software service |
US9875344B1 (en) | 2014-09-05 | 2018-01-23 | Silver Peak Systems, Inc. | Dynamic monitoring and authorization of an optimization device |
US20170011093A1 (en) * | 2014-10-30 | 2017-01-12 | Quantifind, Inc. | Apparatuses, methods and systems for efficient ad-hoc querying of distributed data |
KR101705461B1 (ko) * | 2015-08-28 | 2017-02-09 | 서울과학기술대학교 산학협력단 | 문자열 압축 및 해제를 위한 방법 및 장치 |
US10922347B2 (en) * | 2016-01-28 | 2021-02-16 | Hyland Switzerland Sàrl | Hierarchical dictionary with statistical filtering based on word frequency |
US9594741B1 (en) * | 2016-06-12 | 2017-03-14 | Apple Inc. | Learning new words |
US10432484B2 (en) | 2016-06-13 | 2019-10-01 | Silver Peak Systems, Inc. | Aggregating select network traffic statistics |
US9967056B1 (en) | 2016-08-19 | 2018-05-08 | Silver Peak Systems, Inc. | Forward packet recovery with constrained overhead |
US10771394B2 (en) | 2017-02-06 | 2020-09-08 | Silver Peak Systems, Inc. | Multi-level learning for classifying traffic flows on a first packet from DNS data |
US10257082B2 (en) | 2017-02-06 | 2019-04-09 | Silver Peak Systems, Inc. | Multi-level learning for classifying traffic flows |
US10892978B2 (en) | 2017-02-06 | 2021-01-12 | Silver Peak Systems, Inc. | Multi-level learning for classifying traffic flows from first packet data |
US11044202B2 (en) | 2017-02-06 | 2021-06-22 | Silver Peak Systems, Inc. | Multi-level learning for predicting and classifying traffic flows from first packet data |
US20220107919A1 (en) * | 2017-05-19 | 2022-04-07 | Takashi Suzuki | Computerized systems and methods of data compression |
US11212210B2 (en) | 2017-09-21 | 2021-12-28 | Silver Peak Systems, Inc. | Selective route exporting using source type |
US10637721B2 (en) | 2018-03-12 | 2020-04-28 | Silver Peak Systems, Inc. | Detecting path break conditions while minimizing network overhead |
CN110032432B (zh) * | 2018-12-03 | 2023-09-26 | 创新先进技术有限公司 | 实例的压缩方法和装置、实例的解压方法和装置 |
CN109828789B (zh) * | 2019-01-30 | 2020-11-27 | 上海兆芯集成电路有限公司 | 加速压缩方法以及加速压缩装置 |
US20210127999A1 (en) | 2019-11-05 | 2021-05-06 | Biosense Webster (Israel) Ltd. | Using Statistical Characteristics of Multiple Grouped ECG Signals to Detect Inconsistent Signals |
US11366991B2 (en) | 2019-11-05 | 2022-06-21 | Biosense Webster (Israel) Ltd | Optimizing mapping of ECG signals retrospectively by detecting inconsistency |
EP4123490A4 (en) * | 2020-03-18 | 2023-08-23 | Sony Group Corporation | DATA PROCESSING DEVICE, DATA PROCESSING METHOD, DATA PROCESSING PROGRAM, DATA EXTRACTION DEVICE, DATA EXTRACTION METHOD AND DATA EXTRACTION PROGRAM |
CN113407363B (zh) * | 2021-06-23 | 2024-05-17 | 京东科技控股股份有限公司 | 一种基于远程字典服务的滑窗计数方法及装置 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4843389A (en) * | 1986-12-04 | 1989-06-27 | International Business Machines Corp. | Text compression and expansion method and apparatus |
US5287499A (en) * | 1989-03-22 | 1994-02-15 | Bell Communications Research, Inc. | Methods and apparatus for information storage and retrieval utilizing a method of hashing and different collision avoidance schemes depending upon clustering in the hash table |
US5333313A (en) | 1990-10-22 | 1994-07-26 | Franklin Electronic Publishers, Incorporated | Method and apparatus for compressing a dictionary database by partitioning a master dictionary database into a plurality of functional parts and applying an optimum compression technique to each part |
US5561421A (en) | 1994-07-28 | 1996-10-01 | International Business Machines Corporation | Access method data compression with system-built generic dictionaries |
JP3566441B2 (ja) | 1996-01-30 | 2004-09-15 | シャープ株式会社 | テキスト圧縮用辞書作成装置 |
US5861827A (en) | 1996-07-24 | 1999-01-19 | Unisys Corporation | Data compression and decompression system with immediate dictionary updating interleaved with string search |
US5951623A (en) | 1996-08-06 | 1999-09-14 | Reynar; Jeffrey C. | Lempel- Ziv data compression technique utilizing a dictionary pre-filled with frequent letter combinations, words and/or phrases |
US7451075B2 (en) * | 2000-12-29 | 2008-11-11 | Microsoft Corporation | Compressed speech lexicon and method and apparatus for creating and accessing the speech lexicon |
US6606040B2 (en) | 2001-02-13 | 2003-08-12 | Mosaid Technologies, Inc. | Method and apparatus for adaptive data compression |
US7032174B2 (en) | 2001-03-27 | 2006-04-18 | Microsoft Corporation | Automatically adding proper names to a database |
US7031910B2 (en) | 2001-10-16 | 2006-04-18 | Xerox Corporation | Method and system for encoding and accessing linguistic frequency data |
FI114051B (fi) | 2001-11-12 | 2004-07-30 | Nokia Corp | Menetelmä sanakirjatiedon kompressoimiseksi |
US7406659B2 (en) | 2001-11-26 | 2008-07-29 | Microsoft Corporation | Smart links |
US20030125929A1 (en) | 2001-12-10 | 2003-07-03 | Thomas Bergstraesser | Services for context-sensitive flagging of information in natural language text and central management of metadata relating that information over a computer network |
US7003522B1 (en) | 2002-06-24 | 2006-02-21 | Microsoft Corporation | System and method for incorporating smart tags in online content |
US20040006547A1 (en) * | 2002-07-03 | 2004-01-08 | Dehlinger Peter J. | Text-processing database |
KR100459379B1 (ko) * | 2002-07-30 | 2004-12-03 | 주식회사 모비젠 | 유사 전자문서 판단을 위한 기초데이터 생성방법 및 그시스템 |
US7885963B2 (en) * | 2003-03-24 | 2011-02-08 | Microsoft Corporation | Free text and attribute searching of electronic program guide (EPG) data |
US20050027731A1 (en) | 2003-07-30 | 2005-02-03 | Daniel Revel | Compression dictionaries |
RU2266560C1 (ru) * | 2004-04-28 | 2005-12-20 | Федеральное государственное унитарное предприятие "Институт промышленного развития "Информэлектро" | Способ поиска информации в политематических массивах неструктурированных текстов |
JP4618083B2 (ja) | 2005-09-29 | 2011-01-26 | 沖電気工業株式会社 | 文書処理装置および文書処理方法 |
JP4172801B2 (ja) * | 2005-12-02 | 2008-10-29 | インターナショナル・ビジネス・マシーンズ・コーポレーション | テキストからキーワードを検索する効率的なシステム、および、その方法 |
CN1877625A (zh) * | 2006-07-17 | 2006-12-13 | 吴建明 | 一种纸文件数字签名防伪方法 |
US20080065639A1 (en) * | 2006-08-25 | 2008-03-13 | Netfortis, Inc. | String matching engine |
US7403137B1 (en) * | 2007-03-30 | 2008-07-22 | Juniper Networks, Inc. | Memory efficient indexing for disk-based compression |
-
2007
- 2007-09-28 US US11/863,680 patent/US8078454B2/en not_active Expired - Fee Related
-
2008
- 2008-08-28 JP JP2010526995A patent/JP2011501837A/ja not_active Withdrawn
- 2008-08-28 CN CN2008801094070A patent/CN101809567B/zh not_active Expired - Fee Related
- 2008-08-28 EP EP08798860A patent/EP2193454A2/en not_active Withdrawn
- 2008-08-28 BR BRPI0816164-0A2A patent/BRPI0816164A2/pt not_active IP Right Cessation
- 2008-08-28 RU RU2010111780/08A patent/RU2464630C2/ru not_active IP Right Cessation
- 2008-08-28 KR KR1020107006410A patent/KR101515660B1/ko active IP Right Grant
- 2008-08-28 WO PCT/US2008/074586 patent/WO2009045668A2/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US8078454B2 (en) | 2011-12-13 |
EP2193454A2 (en) | 2010-06-09 |
BRPI0816164A2 (pt) | 2015-02-24 |
RU2464630C2 (ru) | 2012-10-20 |
CN101809567A (zh) | 2010-08-18 |
JP2011501837A (ja) | 2011-01-13 |
WO2009045668A2 (en) | 2009-04-09 |
KR101515660B1 (ko) | 2015-04-27 |
CN101809567B (zh) | 2012-08-22 |
WO2009045668A3 (en) | 2009-05-28 |
KR20100059901A (ko) | 2010-06-04 |
US20090089048A1 (en) | 2009-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2010111780A (ru) | Двухпроходное хеш извлечение текстовых строк | |
US9390711B2 (en) | Information recognition method and apparatus | |
CN109471933B (zh) | 一种文本摘要的生成方法、存储介质和服务器 | |
JP2021523464A5 (ru) | ||
CN110941959B (zh) | 文本违规检测、文本还原方法、数据处理方法及设备 | |
Basu et al. | Effective text classification by a supervised feature selection approach | |
US8037069B2 (en) | Membership checking of digital text | |
CN110110322A (zh) | 网络新词发现方法、装置、电子设备及存储介质 | |
US20110072011A1 (en) | Method and system for scoring texts | |
CN107229627B (zh) | 一种文本处理方法、装置及计算设备 | |
JP2020500371A5 (ru) | ||
WO2009058625A1 (en) | Dynamic reduction of dimensions of a document vector in a document search and retrieval system | |
CN102682085A (zh) | 一种网页去重的方法 | |
CN106469097B (zh) | 一种基于人工智能的召回纠错候选的方法和装置 | |
CN106909575B (zh) | 文本聚类方法和装置 | |
CN113836938A (zh) | 文本相似度的计算方法及装置、存储介质、电子装置 | |
RU2008114801A (ru) | Способ поиска информации в массиве текстов | |
CN105653553B (zh) | 词权重生成方法和装置 | |
Pande et al. | Application of natural language processing tools in stemming | |
Rodriguez et al. | Comparison of information retrieval techniques for traceability link recovery | |
Van Halteren | Chunking with WPDV models | |
CN109670153B (zh) | 一种相似帖子的确定方法、装置、存储介质及终端 | |
US10474700B2 (en) | Robust stream filtering based on reference document | |
Dianati et al. | Words stemming based on structural and semantic similarity | |
Siddiqi et al. | Keyword and keyphrase extraction from single Hindi document using statistical approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PC41 | Official registration of the transfer of exclusive right |
Effective date: 20150526 |
|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20190829 |