RU2409849C2 - Способ поиска информации в политематических массивах неструктурированных текстов - Google Patents

Способ поиска информации в политематических массивах неструктурированных текстов Download PDF

Info

Publication number
RU2409849C2
RU2409849C2 RU2008130492/08A RU2008130492A RU2409849C2 RU 2409849 C2 RU2409849 C2 RU 2409849C2 RU 2008130492/08 A RU2008130492/08 A RU 2008130492/08A RU 2008130492 A RU2008130492 A RU 2008130492A RU 2409849 C2 RU2409849 C2 RU 2409849C2
Authority
RU
Russia
Prior art keywords
terms
document
documents
computer
memory
Prior art date
Application number
RU2008130492/08A
Other languages
English (en)
Other versions
RU2008130492A (ru
Inventor
Елена Геннадиевна Тимофеева (RU)
Елена Геннадиевна Тимофеева
Александр Андреевич Хромов (RU)
Александр Андреевич Хромов
Геннадий Сергеевич Тимофеев (RU)
Геннадий Сергеевич Тимофеев
Владимир Владимирович Силкин (RU)
Владимир Владимирович Силкин
Original Assignee
Закрытое Акционерное Общество "ТЕЛЕФОРМ"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Закрытое Акционерное Общество "ТЕЛЕФОРМ" filed Critical Закрытое Акционерное Общество "ТЕЛЕФОРМ"
Priority to RU2008130492/08A priority Critical patent/RU2409849C2/ru
Publication of RU2008130492A publication Critical patent/RU2008130492A/ru
Application granted granted Critical
Publication of RU2409849C2 publication Critical patent/RU2409849C2/ru

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Изобретение относится к области информационных технологий, в частности к способам поиска информации в больших документальных базах данных (БД). Техническим результатом является сокращение времени поиска. В способе формируют базу терминов по определенной тематике, запрос и при поиске по запросу и нахождении каждого документа заносят в память компьютера его заголовок и адрес, пословесно сравнивают заголовки с терминами из базы терминов по определенной тематике и заносят в память количество совпавших терминов для каждого документа и его адреса, проверяют наличие документов, для которых количество совпавших терминов равно нулю, и удаляют их заголовок и адрес из памяти компьютера, сортируют заголовки и адреса оставшихся документов по количеству совпавших терминов, осуществляют проверку выданного документа на соответствие первоначальному запросу, если выданный документ не соответствует первоначальному запросу, то всю информацию о нем удаляют и осуществляют выдачу на экран монитора следующего по критерию документа. 4 з.п. ф-лы, 2 ил.

Description

Изобретение относится к области информационных технологий, в частности к способам поиска информации в больших документальных базах данных (БД).
Известен способ [RU, 2167450 С1, класс G06F 17/30, 2001.05.20] идентификации объектов по их описаниям, заключающийся в том, что преобразуют тексты естественного языка в заданных областях знаний в сигналы, пригодные для машинной обработки, формируют соответствующие тезаурусы текста путем машинной обработки сигналов, преобразованных из каждого упомянутого текста, в системе хранения и обработки информации, осуществляют статистическую обработку слов в тезаурусах каждого текста, объединяют тезаурусы текстов в соответствующие базы данных в системе хранения и обработки информации, при идентификации конкретного объекта в упомянутых областях знаний формируют запрос к выбранной базе данных путем указания выборки желательных слов, характеризующих упомянутый конкретный объект, сравнивают упомянутую выборку слов из сформированного запроса с тезаурусами текстов в выбранной базе данных, по результатам этого сравнения принимают решение об идентификации упомянутого конкретного объекта, при этом в процессе формирования тезаурусов каждого текста осуществляют лингвистическую сортировку всех слов этого текста по заранее заданным кластерам, упомянутую статистическую обработку слов осуществляют для каждого кластера данного текста, осуществляют лингвистическую сортировку всех слов из выборки слов сформированного запроса, аналогичную лингвистической сортировке слов при формировании тезаурусов текстов, в процессе упомянутого сравнения вычисляют статистическую меру совпадения тезаурусов для выборки слов из сформированного запроса и текстов из выбранной базы данных, решение об идентификации упомянутого конкретного объекта принимают на основе сопоставления вычисленных статистических мер совпадения для различных текстов.
Недостатком указанного способа является то, что тезаурусы требуют частого обновления.
Наиболее близким к заявляемому способу поиска информации является способ [RU №2266560 С1, класс G06F 17/30, 2005.12.20] поиска информации в политематических массивах неструктурированных текстов, заключающийся в том, что терминам вектора запроса присваивают порядковые номера, затем поиск осуществляют с занесением в память компьютера номеров документов, в которых присутствует хотя бы один термин вектора запроса, затем заносят в память компьютера количество совпавших терминов с терминами запроса и порядковые номера совпавших терминов, затем в памяти компьютера документы сортируют по классам с равным количеством совпавших терминов, при этом внутри каждого класса формируют подклассы индекса i класса индекса j, характеризующиеся полным совпадением номеров терминов, затем определяют количество документов (nij) в подклассе индекса i класса индекса j, затем определяют количество документов (nj) класса j, затем определяют вероятность принадлежности документа к подклассу i при условии его принадлежности к классу j, затем определяют критерий выдачи для каждого класса и далее расширяют запрос, если в документах класса содержатся новые термины, которые относятся к тематике поиска.
Недостатком этого способа является его низкое быстродействие, так как осуществляется деление найденных документов на классы и подклассы и определение вероятности принадлежности документа к подклассу i, при условии его принадлежности к классу j.
Техническим результатом является сокращение времени поиска, так как не осуществляется деление найденных документов на классы и подклассы, а выдача документа производится по критерию максимального количества совпадений терминов в его заголовке с терминами из базы терминов по определенной тематике.
Технический результат достигается тем, что в способе поиска информации в политематических массивах неструктурированных текстов поиск осуществляют с занесением в память компьютера номеров документов, заносят в память компьютера количество совпавших терминов, в памяти компьютера документы сортируют, определяют критерий выдачи и расширяют запрос, дополнительно сначала формируют базу терминов по определенной тематике, после чего формируют на компьютере первоначальный запрос и осуществляют по нему поиск в основной базе, затем при нахождении каждого документа заносят в память компьютера его заголовок и адрес, после занесения в память компьютера заголовков и адресов всех найденных документов, отдельно для каждого из них осуществляют пословесное сравнение заголовков с терминами из базы терминов по определенной тематике, суммирование количества совпавших терминов и занесение в память компьютера полученного количества совпавших терминов соответственно для каждого документа и его адреса, затем проверяют наличие документов, для которых количество совпавших терминов равно нулю, и удаляют их заголовок и адрес из памяти компьютера, затем осуществляют сортировку заголовков и адресов оставшихся документов в соответствии с количеством совпавших терминов, затем производят выбор адреса документа по определенному критерию и выдачу на экран монитора компьютера документа, соответствующего этому адресу, затем осуществляют проверку выданного документа на соответствие первоначальному запросу, причем основных баз и баз терминов по определенной тематике может быть несколько, причем сортировку найденных заголовков и адресов документов осуществляют путем ранжирования по убыванию количества совпавших терминов, соответствующего каждому документу, причем критерием выбора адреса документа является соответствующее ему максимальное значение количества совпавших терминов, причем в информационно-поисковую систему загружаются документы, представленные на естественном языке.
Введение указанных дополнительных действий и последовательности их выполнения позволяет сократить время поиска, так как не осуществляется деление найденных документов на классы и подклассы, а выдача документа производится по критерию максимального количества совпадений терминов в его заголовке с терминами из базы терминов по определенной тематике. В других известных технических решениях отсутствуют подобные признаки в их совокупности, что приводит к положительному эффекту, так как исключая любое из действий или нарушая порядок их выполнения, невозможно достичь указанного технического результата.
На фиг.1 представлен пример функциональной схемы системы поиска информации.
На фиг.2 представлен порядок выполнения действий в виде блок-схемы алгоритма.
Так как в способе действия выполняются над материальными объектами, то система поиска может быть представлена следующим образом (фиг.1). Она содержит блок 1 формирования запроса, выход которого соединен с входом блока 2 памяти заголовков и адресов выбранных документов, выход которого соединен с первым входом блока 3 сравнения терминов заголовков с специальными терминами, выдаваемыми на его второй вход с выхода базы терминов 4 по определенной тематике, выход блока 3 сравнения терминов заголовков с специальными терминами соединен с входом счетчика 5, выход которого соединен с входом блока 6 памяти и сортировки количества совпавших терминов, выход которого соединен с входом блока 7 выбора документов, выход которого через соответствующие шины данных 12 и шины управления 13 соединен с процессором 8, блоком воспроизведения 9, основной базой 10 и контроллером 11.
Блок 1 формирования запроса может представлять собой стандартный блок ввода-вывода данных с клавиатурой и мышью, с возможностью отображения вводимой информации на экране блока воспроизведения 9, т.е. это может быть дисплей, экран монитора и т.п. В то же время блок формирования запроса 1 может быть выполнен в виде формирователя сообщения о выборе базы данных для проведения поиска, которое передается в контроллер 11 для запуска программы поиска в основной базе 10. Блок 2 памяти заголовков и адресов выбранных документов представляет собой отдельный блок или часть запоминающего устройства компьютера. Блок 3 сравнения терминов заголовков с специальными терминами и счетчик 5 могут быть выполнены как аппаратно, так и программно. Блок 6 памяти и сортировки количества совпавших терминов может быть выполнен как аппаратно, так и программно-аппаратно. Блок 7 выбора документов, процессор 8, блок воспроизведения 9 и контроллер 11 представляют собой единую компьютерную систему.
Поиск осуществляется следующим образом (фиг.1, фиг.2).
При включении системы пользователю с помощью блока воспроизведения 9 предлагается меню, которое отображается на экране монитора, на котором, в частности, представлен перечень названий имеющихся баз данных системы 10 и баз терминов 4 по определенной тематике. Далее с помощью блока формирования запроса 1 пользователь формирует первоначальный запрос, сообщение об этом сразу попадает в контроллер.
Далее пользователю системы предлагаются заголовки документов, выданные из основной базы по первоначальному запросу, которые отображаются на экране монитора. Одновременно заголовки документов и их адреса системой в автоматическом режиме записываются в блок 2 памяти. После окончания записи всех выданных по первоначальному запросу документов и их адресов осуществляется их поочередное считывание из блока 2 памяти и сравнение заголовков с терминами, выбранными из базы терминов 4 по определенной тематике. Каждое совпадение с терминами подсчитывается счетчиком 5. После того как будет выполнено сравнение всех терминов и суммирование количества совпадений для очередного заголовка, общее количество совпавших терминов записывается в блок 6 памяти и сортировки количества совпавших терминов. Затем системой будет выбран заголовок очередного документа и будет осуществляться сравнение с терминами, выбранными из базы терминов 4 по определенной тематике, подсчет количества совпавших терминов и их запись в блок 6 памяти и сортировки количества совпавших терминов. После того как будет выполнено сравнение и суммирование терминов заголовков всех предложенных документов, в блоке 6 памяти и сортировки количества совпавших терминов производится проверка наличия адресов документов, количество совпавших терминов которых равно нулю (нет ни одного термина заголовка документа, совпавшего с терминами, выбранными из базы терминов 4 по определенной тематике). Вся информация о таких документах удаляется из памяти компьютера. Затем в блоке 6 памяти и сортировки количества совпавших терминов производится сортировка найденных адресов документов путем ранжирования по убыванию количества совпавших терминов, соответствующих каждому документу (при этом предполагается, что документ, которому соответствует максимальное значение количества совпавших терминов, наиболее вероятно соответствует запросу). Затем с помощью блока 7 выбора документов производится выбор из основной базы 10 документа, количество совпавших терминов которого максимально. Выбранный документ отображается на экране монитора блока воспроизведения 9. Оператор производит анализ выбранного документа и, если выданный документ не соответствует первоначальному запросу, то всю информацию о нем удаляют и осуществляют выдачу на экран монитора следующего документа из оставшихся, количество совпавших терминов которого максимально, и осуществляют проверку выданного документа на соответствие первоначальному запросу. Как только очередной документ будет соответствовать первоначальному запросу, то поиск путем прерывания заканчивают. Если же все выданные документы не соответствует первоначальному запросу, то расширяют первоначальный запрос путем добавления дополнительных терминов и повторяют процесс поиска.
Таким образом, способ позволяет сократить время поиска, так как не осуществляется деление найденных документов на классы и подклассы, а выдача документа производится по критерию максимального количества совпадений терминов в его заголовке с терминами из базы терминов по определенной тематике.

Claims (5)

1. Способ поиска информации в политематических массивах неструктурированных текстов, заключающийся в том, что поиск осуществляют с занесением в память компьютера номеров документов, заносят в память компьютера количество совпавших терминов, в памяти компьютера документы сортируют, определяют критерий выдачи и расширяют запрос, отличающийся тем, что сначала формируют базу терминов по определенной тематике, после чего формируют на компьютере первоначальный запрос и осуществляют по нему поиск в основной базе, затем при нахождении каждого документа заносят в память компьютера его заголовок и адрес, после занесения в память компьютера заголовков и адресов всех найденных документов отдельно для каждого из них осуществляют пословесное сравнение заголовков с терминами из базы терминов по определенной тематике, суммирование количества совпавших терминов и занесение в память компьютера полученного количества совпавших терминов соответственно для каждого документа и его адреса, затем проверяют наличие документов, для которых количество совпавших терминов равно нулю и удаляют их заголовок и адрес из памяти компьютера, затем осуществляют сортировку заголовков и адресов оставшихся документов в соответствии с количеством совпавших терминов, затем производят выбор адреса документа по определенному критерию и выдачу на экран монитора компьютера документа, соответствующего этому адресу, затем осуществляют проверку выданного документа на соответствие первоначальному запросу.
2. Способ по п.1, отличающийся тем, что основных баз и баз терминов по определенной тематике может быть несколько.
3. Способ по п.1, отличающийся тем, что сортировку найденных заголовков и адресов документов осуществляют путем ранжирования по убыванию количества совпавших терминов, соответствующих каждому документу.
4. Способ по п.1, отличающийся тем, что критерием выбора адреса документа является соответствующее ему максимальное значение количества совпавших терминов.
5. Способ по п.1, отличающийся тем, что в информационно-поисковую систему загружаются документы, представленные на естественном языке.
RU2008130492/08A 2008-07-24 2008-07-24 Способ поиска информации в политематических массивах неструктурированных текстов RU2409849C2 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2008130492/08A RU2409849C2 (ru) 2008-07-24 2008-07-24 Способ поиска информации в политематических массивах неструктурированных текстов

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2008130492/08A RU2409849C2 (ru) 2008-07-24 2008-07-24 Способ поиска информации в политематических массивах неструктурированных текстов

Publications (2)

Publication Number Publication Date
RU2008130492A RU2008130492A (ru) 2010-01-27
RU2409849C2 true RU2409849C2 (ru) 2011-01-20

Family

ID=42121756

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2008130492/08A RU2409849C2 (ru) 2008-07-24 2008-07-24 Способ поиска информации в политематических массивах неструктурированных текстов

Country Status (1)

Country Link
RU (1) RU2409849C2 (ru)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2701990C1 (ru) * 2018-07-12 2019-10-02 Акционерное Общество "Ремпаро" Способ использования системы определения тематики документов для целей информационной безопасности
RU2792584C1 (ru) * 2022-03-16 2023-03-22 Ануар Райханович Кулмагамбетов Способ организации поиска документов в прикладных базах неструктурированных данных и аппаратная версия двойной памяти для его осуществления
WO2023177321A1 (ru) * 2022-03-16 2023-09-21 Ануар Райханович КУЛМАГАМБЕТОВ Способ организации поиска документов в прикладных базах

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2701990C1 (ru) * 2018-07-12 2019-10-02 Акционерное Общество "Ремпаро" Способ использования системы определения тематики документов для целей информационной безопасности
RU2792584C1 (ru) * 2022-03-16 2023-03-22 Ануар Райханович Кулмагамбетов Способ организации поиска документов в прикладных базах неструктурированных данных и аппаратная версия двойной памяти для его осуществления
WO2023177321A1 (ru) * 2022-03-16 2023-09-21 Ануар Райханович КУЛМАГАМБЕТОВ Способ организации поиска документов в прикладных базах

Also Published As

Publication number Publication date
RU2008130492A (ru) 2010-01-27

Similar Documents

Publication Publication Date Title
EP1808788B1 (en) Information type identification method and apparatus, e.g. for music file name content identification
KR101027864B1 (ko) 대량의 전자 문서 검색을 위한 문서 관련성을 판정하기위한 기계-학습 접근법
US8316007B2 (en) Automatically finding acronyms and synonyms in a corpus
KR101231560B1 (ko) 데이터 클러스터와 유의어의 탐색과 수정에 대한 방법 및 시스템
CN112487150B (zh) 档案管理方法、系统、存储介质及电子设备
JP7252914B2 (ja) 検索提案を提供する方法、装置、機器及び媒体
Reinanda et al. Mining, ranking and recommending entity aspects
US20090055390A1 (en) Information sorting device and information retrieval device
KR20060045720A (ko) 태스크에 대한 쿼리 매핑을 위한 방법 및 시스템
AU2009234120A1 (en) Search results ranking using editing distance and document information
CN111061954B (zh) 搜索结果排序方法、装置及存储介质
US20040015485A1 (en) Method and apparatus for improved internet searching
US20120130999A1 (en) Method and Apparatus for Searching Electronic Documents
US7756798B2 (en) Extensible mechanism for detecting duplicate search items
CN112749328B (zh) 搜索方法、装置和计算机设备
WO2015084757A1 (en) Systems and methods for processing data stored in a database
JP5324677B2 (ja) 類似文書検索支援装置及び類似文書検索支援プログラム
US20080065682A1 (en) Search index generation apparatus
CN109388690A (zh) 文本检索方法、用于文本检索的倒排表生成方法以及系统
RU2409849C2 (ru) Способ поиска информации в политематических массивах неструктурированных текстов
JP5310196B2 (ja) 分類体系改正支援プログラム、分類体系改正支援装置、および分類体系改正支援方法
CN115203253A (zh) 看板数据查询方法、装置、计算机终端及存储介质
CN114328844A (zh) 一种文本数据集管理方法、装置、设备及存储介质
JP2002288189A (ja) 文書分類方法及び文書分類装置並びに文書分類処理プログラムを記録した記録媒体
CN115510306A (zh) 用于电力客服中的数据检索方法

Legal Events

Date Code Title Description
TK4A Correction to the publication in the bulletin (patent)

Free format text: AMENDMENT TO CHAPTER -BZ1A- IN JOURNAL: 3-2010 FOR TAG: (72)

MM4A The patent is invalid due to non-payment of fees

Effective date: 20110128