RU2010111780A

RU2010111780A - Двухпроходное хеш извлечение текстовых строк

Info

Publication number: RU2010111780A
Application number: RU2010111780/08A
Authority: RU
Inventors: Доминик ПАУЗИН (US); Доминик ПАУЗИН
Original assignee: Майкрософт Корпорейшн (Us); Майкрософт Корпорейшн
Priority date: 2007-09-28
Filing date: 2008-08-28
Publication date: 2011-10-10
Also published as: US8078454B2; EP2193454A2; BRPI0816164A2; RU2464630C2; CN101809567A; JP2011501837A; WO2009045668A2; KR101515660B1; CN101809567B; WO2009045668A3; KR20100059901A; US20090089048A1

Abstract

1. Способ распознавания текста, содержащий этапы на которых: ! генерируют множество сгенерированных терминов (305), используемых в текстовой строке (105); ! вычисляют множество хеш значений из множества генерированных терминов (305); ! создают множество хеш сегментов (310), соответствующих множеству хеш значений; ! поддерживают множество значений счета происшествий, соответствующих множеству хеш сегментов (310), причем каждое из множества значений счета происшествий соответственно указывает число раз, которое каждый из множества генерированных терминов (305) происходит в текстовой строке (105), имеющей хеш значение, которое соответствует множеству хеш сегментов значений счета происшествий; ! сбрасывают те из множества хеш сегментов (310), которые имеют соответствующие значения счета происшествий меньше, чем первое предопределенное значение; и ! добавляют термины словаря в словарь (120), термины словаря содержат те из множества сгенерированных терминов (305), имеющие соответствующие хеш значения, соответствующие любому из множества хеш значений, соответствующих оставшемуся множеству хеш сегментов (310), причем словарь (120) включает в себя множество значений счета частоты, соответствующе указывающих число раз, которое каждый из терминов словаря произошел в текстовой строке (105). ! 2. Способ по п.1, дополнительно содержащий этап, на котором ранжируют термины словаря. ! 3. Способ по п.1, дополнительно содержащий этап, на котором ранжируют термины словаря, с использованием функции оценки. ! 4. Способ по п.1, дополнительно содержащий этап, на котором ранжируют термины словаря, с использованием функции оценки, сконфигурированной для сжати

Claims

1. Способ распознавания текста, содержащий этапы на которых:

генерируют множество сгенерированных терминов (305), используемых в текстовой строке (105);

вычисляют множество хеш значений из множества генерированных терминов (305);

создают множество хеш сегментов (310), соответствующих множеству хеш значений;

поддерживают множество значений счета происшествий, соответствующих множеству хеш сегментов (310), причем каждое из множества значений счета происшествий соответственно указывает число раз, которое каждый из множества генерированных терминов (305) происходит в текстовой строке (105), имеющей хеш значение, которое соответствует множеству хеш сегментов значений счета происшествий;

сбрасывают те из множества хеш сегментов (310), которые имеют соответствующие значения счета происшествий меньше, чем первое предопределенное значение; и

добавляют термины словаря в словарь (120), термины словаря содержат те из множества сгенерированных терминов (305), имеющие соответствующие хеш значения, соответствующие любому из множества хеш значений, соответствующих оставшемуся множеству хеш сегментов (310), причем словарь (120) включает в себя множество значений счета частоты, соответствующе указывающих число раз, которое каждый из терминов словаря произошел в текстовой строке (105).

2. Способ по п.1, дополнительно содержащий этап, на котором ранжируют термины словаря.

3. Способ по п.1, дополнительно содержащий этап, на котором ранжируют термины словаря, с использованием функции оценки.

4. Способ по п.1, дополнительно содержащий этап, на котором ранжируют термины словаря, с использованием функции оценки, сконфигурированной для сжатия данных.

5. Способ по п.1, дополнительно содержащий этап, на котором ранжируют термины словаря, с использованием функции оценки, сконфигурированной для сжатия данных, в котором термины словаря ранжируют на основе множества соответствующих индексов, соответствующих каждому термину словаря, причем каждый из множества индексов соответствующе содержит значение счета частоты каждого соответствующего термина словаря, умноженного на длину каждого соответствующего термина словаря.

6. Способ по п.1, дополнительно содержащий этап, на котором ранжируют термины словаря, с использованием функции оценки, сконфигурированной для распознавания ключевого слова.

7. Способ по п.1, дополнительно содержащий этап, на котором ранжируют термины словаря, с использованием функции оценки, сконфигурированной для распознавания ключевого слова, в котором термины словаря ранжируют на основе соответствующих значений счета частоты.

8. Способ по п.1, дополнительно содержащий этап, на котором используют словарь (120) для определения того, какой из сгенерированных терминов (305) сжать в текстовой строке (105).

9. Способ по п.1, дополнительно содержащий этап, на котором используют словарь (120) для определения того, какие из сгенерированных терминов (305) характеризовать как ключевые слова.

10. Способ по п.1, дополнительно содержащий этап, на котором удаляют термины словаря из словаря (120), имеющие соответствующие значения счета частоты меньше, чем второе предопределенное значение.

11. Способ по п.1, в котором этап, на котором генерируют множество сгенерированных терминов (305), используемых в текстовой строке (105), заключается в том, что генерируют множество сгенерированных терминов (305), используемых в текстовой строке (105), причем каждый из множества сгенерированных терминов (305) содержит индивидуальные строки.

12. Способ по п.1, в котором этап, на котором генерируют множество сгенерированных терминов (305), используемых в текстовой строке (105), заключается в том, что генерируют множество сгенерированных терминов (305), используемых в текстовой строке (105), причем, по меньшей мере, часть множества сгенерированных терминов (305) содержит подстроки.

13. Способ по п.1, в котором этап, на котором вычисляют множество хеш значений из множества сгенерированных терминов (305), заключается в том, что вычисляют множество хеш значений на основе идеального хеш алгоритма.

14. Компьютерочитаемый носитель, хранящий набор команд, которые, будучи исполненными, выполняют способ распознавания текста, причем способ, исполняемый набором команд, содержит этапы на которых:

создают множество хеш сегментов (310), соответствующих множеству хеш значений, соответствующих множеству сгенерированных терминов (305) в текстовой строке (105), причем, по меньшей мере, часть множества сгенерированных терминов (305) содержит подстроки;

поддерживают множество значений счета происшествий соответствующих множеству хеш сегментов (310), причем каждое из множества значений счета происшествий соответственно указывает число раз, которое каждый из множества генерированных терминов (305) происходит в текстовой строке (105), имеющей хеш значение, которое соответствует множеству хеш сегментов значений счета происшествий;

сбрасывают те из множества хеш сегментов (310), которые имеют соответствующие значения счета происшествий меньше, чем первое предопределенное значение;

добавляют термины словаря в словарь (120), термины словаря содержат те из множества сгенерированных терминов (305), имеющие соответствующие хеш значения, соответствующие любому из множества хеш значений, соответствующих оставшемуся множеству хеш сегментов (310), причем словарь (120) включает в себя множество значений счета частоты, соответствующе указывающих число раз, которое каждый из терминов словаря произошел в текстовой строке (105), и

ранжируют термины словаря с использованием функции оценки, сконфигурированной для сжатия данных, причем термины словаря ранжируют на основе множества соответствующих индексов, соответствующих каждому термину словаря, причем каждый из множества индексов соответственно содержит значение счета частоты каждого соответствующего термина словаря, умноженного на длину каждого соответствующего термина словаря.

15. Компьютерочитаемый носитель по п.14, дополнительно содержащий этап, на котором используют словарь (120) для определения того, какой из сгенерированных терминов (305) сжать в текстовой строке (105).

16. Компьютерочитаемый носитель по п.14, дополнительно содержащий этап, на котором удаляют термины словаря из словаря (120), которые имеют соответствующие значения счета частоты меньше, чем второе предопределенное значение.

17. Компьютерочитаемый носитель по п.14, дополнительно содержащий этап, на котором вычисляют множество хеш значений на основе идеального хеш алгоритма.

18. Система распознания текста, содержащая:

хранилище памяти, и

блок обработки, соединенный с хранилищем памяти, причем блок обработки выполнен с возможностью:

создания множества хеш сегментов (310) соответствующих множеству хеш значений, соответствующих множеству сгенерированных терминов (305) в текстовой строке (105), причем каждый из множества сгенерированных терминов (305) содержит индивидуальные строки;

поддержания множества значений счета происшествий соответствующего множеству хеш сегментов (310), причем каждое из множества значений счета происшествий соответственно указывает число раз, которое каждый из множества генерированных терминов (305) происходит в текстовой строке (105), имеющей хеш значение, которое соответствует множеству хеш сегментов значений счета происшествий;

сброса тех из множества хеш сегментов (310), которые имеют соответствующие значения счета происшествий меньше, чем первое предопределенное значение;

добавления терминов словаря в словарь (120), термины словаря содержат те из множества сгенерированных терминов (305), имеющие соответствующие хеш значения, соответствующие любому из множества хеш значений, соответствующих оставшемуся множеству хеш сегментов (310), причем словарь (120) включает в себя множество значений счета частоты, соответствующе указывающих число раз, которое каждый из терминов словаря произошел в текстовой строке (105), и

ранжирования терминов словаря с использованием функции оценки, сконфигурированной для распознавания ключевого слова, причем термины словаря ранжируют на основе их соответствующих значений счета частоты.

19. Система по п.18, в которой блок обработки дополнительно выполнен с возможностью удаления терминов словаря из словаря (120), которые имеют соответствующие значения счета частоты меньше, чем второе предопределенное значение.

20. Система по п.18, в которой блок обработки дополнительно выполнен с возможностью вычисления множества хеш значений на основе идеального алгоритма.