RU2007141666A - METHOD FOR COLLECTING, PROCESSING, AND CATALOGIZING TARGET INFORMATION FROM UNSTRUCTURED SOURCES - Google Patents

METHOD FOR COLLECTING, PROCESSING, AND CATALOGIZING TARGET INFORMATION FROM UNSTRUCTURED SOURCES Download PDF

Info

Publication number
RU2007141666A
RU2007141666A RU2007141666/09A RU2007141666A RU2007141666A RU 2007141666 A RU2007141666 A RU 2007141666A RU 2007141666/09 A RU2007141666/09 A RU 2007141666/09A RU 2007141666 A RU2007141666 A RU 2007141666A RU 2007141666 A RU2007141666 A RU 2007141666A
Authority
RU
Russia
Prior art keywords
information
classes
processing
class
document
Prior art date
Application number
RU2007141666/09A
Other languages
Russian (ru)
Inventor
Николай Игоревич Докучаев (RU)
Николай Игоревич Докучаев
Антон Валентинович Новиков (RU)
Антон Валентинович Новиков
Сергей Николаевич Ряжских (RU)
Сергей Николаевич Ряжских
Original Assignee
Николай Игоревич Докучаев (RU)
Николай Игоревич Докучаев
Антон Валентинович Новиков (RU)
Антон Валентинович Новиков
Сергей Николаевич Ряжских (RU)
Сергей Николаевич Ряжских
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Николай Игоревич Докучаев (RU), Николай Игоревич Докучаев, Антон Валентинович Новиков (RU), Антон Валентинович Новиков, Сергей Николаевич Ряжских (RU), Сергей Николаевич Ряжских filed Critical Николай Игоревич Докучаев (RU)
Priority to RU2007141666/09A priority Critical patent/RU2007141666A/en
Publication of RU2007141666A publication Critical patent/RU2007141666A/en

Links

Abstract

1. Способ сбора, обработки и каталогизации целевой информации из неструктурированных источников, по которому клиентами формулируется задача по поиску и отбору из информационных сетей соответствующей их запросу информации, посредством регистрации на сайте компании, осуществляющей сбор и анализ такой информации, производится идентификация клиента, клиенту предлагается тема или перечень тем, которые предварительно определяются и настраиваются экспертным путем, предварительно формируют базу контрольных информационных признаков, подлежащих выявлению в информационном потоке, принимают информационный поток, т.е. электронные документы, отобранные с информационных ресурсов, последовательно обрабатывают электронные документы из информационного потока, выделяют из поступившего на обработку электронного документа список элементов и список слов, используя лексический анализ текстовой информации, обеспечивающий подготовительную нормализацию обрабатываемых электронных документов, выделяют по установленным правилам информационные признаки, сравнивают их с контрольными информационными признаками из базы данных, содержащей всю справочную информацию, включающую все морфологические и семантические характеристики словосочетаний, а также слова-синонимы и тематически связанные слова, по результатам сравнения фиксируют наличие или отсутствие в каждом поступившем на обработку электронном документе идентификационных признаков, подлежащих выявлению, на основе этого анализа принимается решение о дальнейшей обработке электронных документов, проводят обработку этих документов с использованием детального м1. A method for collecting, processing and cataloging target information from unstructured sources, according to which the clients formulate the task of searching and selecting information corresponding to their request from information networks, by registering on the company’s website collecting and analyzing such information, the client is identified, the client is invited to a topic or a list of topics that are pre-determined and configured by experts, pre-form a database of control information features, next to aschih identify in the information flow, receiving an information flow, i.e. electronic documents selected from information resources sequentially process electronic documents from the information stream, select a list of elements and a list of words from the electronic document received for processing, using lexical analysis of text information that provides preparatory normalization of processed electronic documents, select information signs according to established rules, compare them with control information signs from a database containing all the reference information According to the results of comparison, the presence, including all morphological and semantic characteristics of phrases, as well as synonyms and thematically related words, fixes the presence or absence of identification attributes to be identified in each electronic document received, based on this analysis, a decision is made on further processing of electronic documents, carry out the processing of these documents using the detailed m

Claims (2)

1. Способ сбора, обработки и каталогизации целевой информации из неструктурированных источников, по которому клиентами формулируется задача по поиску и отбору из информационных сетей соответствующей их запросу информации, посредством регистрации на сайте компании, осуществляющей сбор и анализ такой информации, производится идентификация клиента, клиенту предлагается тема или перечень тем, которые предварительно определяются и настраиваются экспертным путем, предварительно формируют базу контрольных информационных признаков, подлежащих выявлению в информационном потоке, принимают информационный поток, т.е. электронные документы, отобранные с информационных ресурсов, последовательно обрабатывают электронные документы из информационного потока, выделяют из поступившего на обработку электронного документа список элементов и список слов, используя лексический анализ текстовой информации, обеспечивающий подготовительную нормализацию обрабатываемых электронных документов, выделяют по установленным правилам информационные признаки, сравнивают их с контрольными информационными признаками из базы данных, содержащей всю справочную информацию, включающую все морфологические и семантические характеристики словосочетаний, а также слова-синонимы и тематически связанные слова, по результатам сравнения фиксируют наличие или отсутствие в каждом поступившем на обработку электронном документе идентификационных признаков, подлежащих выявлению, на основе этого анализа принимается решение о дальнейшей обработке электронных документов, проводят обработку этих документов с использованием детального морфологического, синтаксического и семантического анализа, и на основе проведенной обработки этих документов определяют принадлежность информации, находящейся в этих электронных документах к той или иной заранее определенной теме, а на основе полученной при обработке электронных документов статистической информации создаются статистико-аналитические отчеты, отличающийся тем, что для определения принадлежности исследуемого электронного документа или только его части к определенным темам используется иерархически выстроенное дерево классов, где факт обнаружения класса нижнего уровня приводит к факту существования классов верхнего уровня над найденным классом, устанавливается очередность расчета классов, определяемая приоритетами, выбор и назначение которых зависит от используемых классами сущностей для описания темы, определяются пересечения классов, под которыми понимается одновременное нахождение двух или более базовых классов в одной лингвистической зоне, при расчетах каждому классу задается глубина вложенности, определяемая заданием родственных связей для каждого класса, словосочетаниям, определяющим классы, задаются весовые коэффициенты, устанавливаются зоны влияния для классов, определяются классы, которые могут быть использованы для определения нескольких тем, задаются словосочетания-киллеры, удаляющие из дальнейшей обработки зон влияния классов и соответственно расчета их площадей статистическую информацию о занимаемой словосочетаниями площади, входящих в тезаурус классов, для которых в настройках классов были заданы словосочетания-киллеры, задаются классы-киллеры, которые находясь в зоне влияния классов с приоритетом "0", "1" и "2", удаляют из дальнейшей обработки статистическую информацию о занимаемой данными классами площадях, на основании информации о занимаемых площадях, оставшихся после проверки классов, полученной при обработке документа, принимается решение по отнесению той или другой части обрабатываемого документа к той или иной теме и в каком объеме, для определения объема определяется итоговая площадь и/или относительная площадь, которую они занимают в обрабатываемом документе, при этом, если значение размера площади или процент размера относительной площади части документа превышает или равно значению размера площади, установленного для той или иной темы в их настройках, то тогда документ будет отнесен к той или иной теме, в противном случае считается, что в данном документе упоминание о теме встретилось случайно или слишком мало, и этот документ не будет отнесен к теме, также при расчете площади классов учитывается тот факт, каким набором символов представлен элемент, находящийся в зоне влияния класса, также при расчетах площадей, занимаемых словосочетаниями, определяемыми именем участника, или его торговыми марками, используется показатель «Индекс Бренд».1. A method for collecting, processing and cataloging target information from unstructured sources, according to which the clients formulate the task of searching and selecting information corresponding to their request from information networks, by registering on the company’s website collecting and analyzing such information, the client is identified, the client is invited to a topic or a list of topics that are pre-determined and configured by experts, pre-form a database of control information features, next to aschih identify in the information flow, receiving an information flow, i.e. electronic documents selected from information resources sequentially process electronic documents from the information stream, select a list of elements and a list of words from the electronic document received for processing, using lexical analysis of text information that provides preparatory normalization of processed electronic documents, select information signs according to established rules, compare them with control information signs from a database containing all the reference information According to the results of comparison, the presence, including all morphological and semantic characteristics of phrases, as well as synonyms and thematically related words, fixes the presence or absence of identification attributes to be identified in each electronic document received, based on this analysis, a decision is made on further processing of electronic documents, process these documents using detailed morphological, syntactic and semantic analysis, and based on The data processing process for these documents determines whether the information in these electronic documents belongs to a particular predetermined topic, and based on the statistical information received during processing of electronic documents, statistical and analytical reports are created, characterized in that to determine the ownership of the electronic document being studied or only parts to certain topics, a hierarchically built class tree is used, where the fact of discovering a lower-level class leads to the fact When classes of the upper level are over the found class, the order of class calculation is determined, determined by priorities, the choice and purpose of which depends on the entities used by the classes to describe the topic, class intersections are determined, which means the simultaneous presence of two or more base classes in one linguistic zone, when calculating each class is set by the depth of nesting, determined by the task of kinship for each class, phrases that define the classes, weight coefficients, zones of influence for classes are established, classes that can be used to define several topics are defined, killer phrases are defined that remove statistical information on the area occupied by phrases from the further processing of zones of influence of classes and correspondingly calculate their areas, for classes which in the class settings were specified phrases-killers, killer classes are defined, which, being in the influence zone of classes with priority "0", "1" and "2", are deleted from the following processing statistical information about the areas occupied by these classes of classes, based on the information about the occupied areas remaining after checking the classes obtained during processing of the document, a decision is made to classify this or that part of the processed document as a topic and in what volume, to determine the volume it is determined the total area and / or the relative area that they occupy in the document being processed, in this case, if the value of the area size or the percentage of the relative area of the part of the document if it exceeds or is equal to the size of the area set for a particular topic in their settings, then the document will be assigned to a particular topic, otherwise it is considered that in this document the mention of a topic was encountered by chance or too little, and this document will not be related to the topic, also when calculating the area of classes, the fact that the set of characters represents the element in the zone of influence of the class is also taken into account, also when calculating the areas occupied by phrases determined by the name of the participant, or his trading bubbled trademarks used indicator of "Brand of the Index." 2. Способ сбора, обработки и каталогизации целевой информации из неструктурированных источников по п.1, отличающийся тем, что для определения заметности того или иного участника рынка (физического, юридического лица или торговых марок) по отношению к другим участникам рынка в информационных сетях и в печатных изданиях за определенные промежутки времени, используется показатель «Индекс Заметности», рассчитываемый по следующей формуле;2. The method of collecting, processing and cataloging target information from unstructured sources according to claim 1, characterized in that to determine the visibility of a market participant (individual, legal entity or brand) in relation to other market participants in information networks and in printed publications for certain periods of time, the indicator "Index of Visibility" is used, calculated according to the following formula;
Figure 00000001
Figure 00000001
где i - порядковый номер участника рынка,where i is the serial number of the market participant, IFi - процент количества найденных материалов для i-го участника рынка за выбранный промежуток времени:IF i - percentage of the number of materials found for the i-th market participant for the selected period of time:
Figure 00000002
Figure 00000002
где Ni - количество материалов, в которых встречается i-й участник рынка, за выбранный промежуток времени,where N i - the number of materials in which the i-th market participant occurs, for a selected period of time, Т - общее количество материалов, в которых встречается хотя бы один участник рынка;T - the total number of materials in which at least one market participant occurs; Ari - процент суммы площадей отданных i-у участнику в публикациях отобранных за выбранный промежуток времени:Ar i - percentage of the total area given to i-participant in publications selected for the selected period of time:
Figure 00000003
Figure 00000003
где Sk - площадь отданная i-у участнику рынка в k-й публикации,where S k is the area given to the i-th market participant in the k-th publication, Sj - площадь отданная всем встретившимся участникам рынка в j-й публикации;S j - the area given to all met market participants in the j-th publication; NEi - процент количества изданий, в которых был найден i-й участник рынка за выбранный промежуток времени:NE i - percentage of the number of publications in which the i-th market participant was found for a selected period of time:
Figure 00000004
Figure 00000004
где ТТ - общее количество изданий, в которых встретился хотя бы один участник рынка,where TT is the total number of publications in which at least one market participant has met, LNi - количество изданий, в которых встретился i-й участник рынка за выбранный промежуток времени.LN i - the number of publications in which the i-th market participant met for a selected period of time.
RU2007141666/09A 2007-11-13 2007-11-13 METHOD FOR COLLECTING, PROCESSING, AND CATALOGIZING TARGET INFORMATION FROM UNSTRUCTURED SOURCES RU2007141666A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2007141666/09A RU2007141666A (en) 2007-11-13 2007-11-13 METHOD FOR COLLECTING, PROCESSING, AND CATALOGIZING TARGET INFORMATION FROM UNSTRUCTURED SOURCES

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2007141666/09A RU2007141666A (en) 2007-11-13 2007-11-13 METHOD FOR COLLECTING, PROCESSING, AND CATALOGIZING TARGET INFORMATION FROM UNSTRUCTURED SOURCES

Publications (1)

Publication Number Publication Date
RU2007141666A true RU2007141666A (en) 2009-05-20

Family

ID=41021336

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2007141666/09A RU2007141666A (en) 2007-11-13 2007-11-13 METHOD FOR COLLECTING, PROCESSING, AND CATALOGIZING TARGET INFORMATION FROM UNSTRUCTURED SOURCES

Country Status (1)

Country Link
RU (1) RU2007141666A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8380753B2 (en) 2011-01-18 2013-02-19 Apple Inc. Reconstruction of lists in a document
WO2013073999A2 (en) 2011-11-18 2013-05-23 Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" Method for the automated analysis of text documents
US9959259B2 (en) 2009-01-02 2018-05-01 Apple Inc. Identification of compound graphic elements in an unstructured document

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9959259B2 (en) 2009-01-02 2018-05-01 Apple Inc. Identification of compound graphic elements in an unstructured document
US8380753B2 (en) 2011-01-18 2013-02-19 Apple Inc. Reconstruction of lists in a document
US8886676B2 (en) 2011-01-18 2014-11-11 Apple Inc. Reconstruction of lists in a document
WO2013073999A2 (en) 2011-11-18 2013-05-23 Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" Method for the automated analysis of text documents

Similar Documents

Publication Publication Date Title
CN110597988B (en) Text classification method, device, equipment and storage medium
US7761447B2 (en) Systems and methods that rank search results
JP5731250B2 (en) System and method for recommending interesting content in an information stream
CN103493045B (en) Automatic answer to on-line annealing
WO2022141861A1 (en) Emotion classification method and apparatus, electronic device, and storage medium
US9317559B1 (en) Sentiment detection as a ranking signal for reviewable entities
US8566303B2 (en) Determining word information entropies
CN109145216A (en) Network public-opinion monitoring method, device and storage medium
CN103984703B (en) Mail classification method and device
CN107885793A (en) A kind of hot microblog topic analyzing and predicting method and system
CN110209816A (en) Event recognition and classification method, system, device based on confrontation learning by imitation
CN103744889B (en) A kind of method and apparatus for problem progress clustering processing
CN110347701B (en) Target type identification method for entity retrieval query
JP2006293767A (en) Sentence categorizing device, sentence categorizing method, and categorization dictionary creating device
CN111611356A (en) Information searching method and device, electronic equipment and readable storage medium
CN112035658A (en) Enterprise public opinion monitoring method based on deep learning
CN111079029B (en) Sensitive account detection method, storage medium and computer equipment
WO2019047352A1 (en) Social data-based asset allocation method, electronic device and medium
Ozoh et al. Identification and classification of toxic comments on social media using machine learning techniques
CN111488453B (en) Resource grading method, device, equipment and storage medium
CN109446393B (en) Network community topic classification method and device
CN110019556B (en) Topic news acquisition method, device and equipment thereof
CN104899310B (en) Information sorting method, the method and device for generating information sorting model
RU2007141666A (en) METHOD FOR COLLECTING, PROCESSING, AND CATALOGIZING TARGET INFORMATION FROM UNSTRUCTURED SOURCES
CN115860283B (en) Contribution degree prediction method and device based on knowledge worker portrait

Legal Events

Date Code Title Description
FA92 Acknowledgement of application withdrawn (lack of supplementary materials submitted)

Effective date: 20091130