RU2409850C1 - Address method of detecting identification features in information streams - Google Patents
Address method of detecting identification features in information streams Download PDFInfo
- Publication number
- RU2409850C1 RU2409850C1 RU2009120255/08A RU2009120255A RU2409850C1 RU 2409850 C1 RU2409850 C1 RU 2409850C1 RU 2009120255/08 A RU2009120255/08 A RU 2009120255/08A RU 2009120255 A RU2009120255 A RU 2009120255A RU 2409850 C1 RU2409850 C1 RU 2409850C1
- Authority
- RU
- Russia
- Prior art keywords
- information
- features
- address
- reference information
- coefficient
- Prior art date
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Изобретение относится к области информатики и вычислительной техники и может использоваться для обработки информационных потоков и обнаружения в них заданных эталонных информационных признаков. Способ может быть использован в устройствах контроля информационных потоков для мониторинга информационного трафика.The invention relates to the field of computer science and computer technology and can be used to process information flows and detect specified standard information signs in them. The method can be used in information flow control devices for monitoring information traffic.
Известен способ, реализованный в устройстве обработки информации для информационного поиска (Патент РФ №2096825, МПК 6 G06F 17/00, G06F 17/30, опубликованный 20.11.1997). Данный способ заключается в том, что предварительно формируют базу эталонных информационных значений, подлежащих выявлению в информационном потоке, запоминают их, запоминают количество символов в обрабатываемом текстовом фрагменте (ТФ), запоминают количество символов в словах (словосочетаниях), запоминают количество цифр и специальных символов в ТФ, запоминают предварительно выделенные комбинации символов, соответствующие структурным признакам ТФ, задают правила выделения ТФ из информационного потока. Далее принимают информационный поток, запоминают по предварительно заданным правилам очередной ТФ. Выделяют из ТФ слова и словосочетания, для чего используют предварительно запомненные структурные признаки. Запоминают ТФ, для чего записывают в память слова и словосочетания последовательно, аналогично позициям в выделенном ТФ. Сравнивают запомненные слова и словосочетания с выделенным ТФ, для чего выбирают методом прямого перебора из памяти слова (словосочетания), определяют количество и вид символов в выбранном слове на предмет наличия только цифр и (или) спецзнаков, сравнивают количество символов с эталонным значением и запоминают данные сравнения. Запоминают данные о количестве повторений данного слова в ТФ (о количестве одинаковых слов), запоминают данные о количестве совпадений символьной структуры. Сравнивают выделенный признак с эталонным, содержащимся в базе эталонных информационных признаков. В случае их совпадения считают обнаруженным искомый признак.A known method implemented in an information processing device for information retrieval (RF Patent No. 2096825, IPC 6
Недостатками данного способа являются:The disadvantages of this method are:
1) относительно низкая скорость обработки информации вследствие использования алгоритмов последовательного поиска;1) relatively low speed of information processing due to the use of sequential search algorithms;
2) значительные затраты объемов памяти для хранения эталонных информационных признаков.2) significant costs of memory for storing reference information features.
Второй недостаток объясняется тем, что при повышении интенсивности трафика увеличивается время обработки необходимой текстовой единицы (слова, словосочетания и т.п.), вследствие чего увеличивается общее время обработки всего массива информационных признаков. Увеличение объемов памяти и необходимость увеличения вычислительного ресурса приводят к неоправданным экономическим затратам.The second drawback is due to the fact that with an increase in traffic intensity, the processing time of the necessary text unit (words, phrases, etc.) increases, as a result of which the total processing time of the entire array of information features increases. The increase in memory and the need to increase the computing resource lead to unjustified economic costs.
В значительной степени первый недостаток устраняет способ обработки информации для обнаружения идентификационных признаков в информационных потоках (Патент РФ №2282889, МПК6 G06F 17/30, опубликованный 27.08.2006, Бюл. №24). Данный способ является наиболее близким по технической сущности и выбран в качестве прототипа.To a large extent, the first drawback eliminates the method of processing information to detect identification signs in information flows (RF Patent No. 2282889, IPC 6 G06F 17/30, published August 27, 2006, Bull. No. 24). This method is the closest in technical essence and is selected as a prototype.
Способ-прототип заключается в том, что предварительно формируют базу эталонных информационных признаков (БЭИП), подлежащих выявлению в информационном потоке, принимают информационный поток, последовательно выделяют и запоминают фрагменты принимаемого информационного потока, из которых выделяют по установленным правилам информационные признаки, сравнивают их с эталонными информационными признаками из БЭИП и по результатам сравнения фиксируют наличие или отсутствие в каждом фрагменте информационного потока идентификационных признаков, подлежащих выявлению. Для формирования БЭИП выбирают совокупность из Ni эталонных информационных признаков, выделяют содержащиеся в них и отличающиеся друг от друга символы. Затем из выделенных символов формируют алфавит символов (АС), вычисляют число S содержащихся в нем символов, присваивают j-му, где j=1, 2, …, S, символу номер nj его позиции в алфавите символов и рассчитывают для заданного значения коэффициента заполнения К БЭИП ее объем Nk=N/K. После этого для i-го, где i=1, 2, …, N, эталонного информационного признака вычисляют число mi, образующих его символов и его морфологический коэффициент di, а также рассчитывают с использованием хеш-функции заданного вида f(di) адрес эталонного информационного признака Ai=f(di). Затем запоминают i-й эталонный информационный признак в БЭИП на позиции, соответствующей его адресу Ai. Для выделения из каждого фрагмента принимаемого информационного потока информационных признаков выделяют в нем группу двоичных знаков, находящихся между примыкающими друг к другу двумя пробелами, декодируют ее к виду информационного признака, вычисляют его морфологический коэффициент и адрес. После этого сравнивают выделенный и декодированный информационный признак с эталонными информационными признаками, запомненными по этому адресу в БЭИП.The prototype method consists in preliminarily forming a base of reference information signs (BEIP) to be detected in the information stream, accepting the information stream, sequentially extracting and storing fragments of the received information stream, from which information signs are allocated according to established rules, and comparing them with the reference information signs from BEIP and according to the results of comparison record the presence or absence in each fragment of the information flow of identification Cove, to be detected. For the formation of BEIP, a set of N i reference information signs is selected, the symbols contained in them and distinguished from each other are distinguished. Then, the alphabet of characters (AC) is formed from the selected characters, the number S of the characters contained in it is calculated, assigned to the jth, where j = 1, 2, ..., S, the character number n j its position in the character alphabet and calculated for a given coefficient value filling K BEIP its volume N k = N / K. After that, for the i-th, where i = 1, 2, ..., N, of the reference information attribute, calculate the number m i of its constituent characters and its morphological coefficient d i , and also calculate using a hash function of a given form f (d i ) the address of the reference information attribute A i = f (d i ). Then, the i-th reference information attribute is stored in the BEIP at the position corresponding to its address A i . To extract information signs from each fragment of the received information stream, a group of binary characters located between two spaces adjacent to each other is allocated in it, decode it to the type of information sign, and its morphological coefficient and address are calculated. After that, the selected and decoded information sign is compared with the reference information signs stored at this address in the BEIP.
Для i-го, где i=1, 2, …, N, эталонного информационного признака вычисляют его морфологический коэффициент di по формуле:For the i-th, where i = 1, 2, ..., N, of the reference information feature, its morphological coefficient d i is calculated by the formula:
где nj - номер позиции j-го символа в алфавите символов;where n j is the position number of the j-th character in the alphabet of characters;
mi - число символов, образующих i-й признак;m i - the number of characters forming the i-th sign;
S - число символов АС;S is the number of characters AC;
j=1, 2, …, mi - позиция символа в i-м признаке.j = 1, 2, ..., m i is the position of the symbol in the i-th attribute.
В качестве хеш-функции для вычисления адреса признака Ai=f(di) используют функцию видаAs a hash function for calculating the address of the attribute A i = f (d i ), use a function of the form
Недостатком данного способа являются значительные затраты объемов памяти для хранения эталонных информационных признаков.The disadvantage of this method is the significant cost of memory for storing reference information features.
Техническим результатом реализации предлагаемого способа является сокращение объема памяти для хранения эталонных информационных признаков.The technical result of the implementation of the proposed method is to reduce the amount of memory for storing reference information features.
Данный технический результат достигается тем, что к функциональным действиям способа-прототипа при формировании БЭИП дополнительно осуществляют сокращение размерности морфологического коэффициента di, представленного в двоичной форме записи, за счет деления на двоичную постоянную R, равную размерности произведения (Nk×10), при этом получают новый морфологический коэффициент сокращенной размерности , из которого осуществляют расчет вторичной хеш-функции с основанием модуля, равным Nk. Полученное компактное бинарное значение единого размера для любых по символьной длине словарных признаков записывают в БЭИП по адресу Ai=f(di). В дальнейшем при мониторинге информационного трафика фрагменты информационного потока декодируют к виду компактного бинарного значения признака, сравнивают с признаком в двоичной форме записи, хранящимся по адресу Ai=f(di) и по результатам сравнения фиксируют наличие или отсутствие в каждом фрагменте информационного потока идентификационных признаков, подлежащих выявлению.This technical result is achieved by the fact that the functional actions of the prototype method during the formation of BEIP additionally reduce the dimension of the morphological coefficient d i presented in binary form by dividing by the binary constant R equal to the dimension of the product (N k × 10), when this gives a new morphological coefficient of reduced dimension , from which the secondary hash function is calculated with the base of the module equal to N k . The obtained compact binary value of a uniform size for any dictionary characters according to the symbolic length is recorded in the BEIP at the address A i = f (d i ). Further, when monitoring information traffic, fragments of the information stream are decoded to the form of a compact binary value of the sign, compared with the sign in binary form stored at the address A i = f (d i ), and the presence or absence of identifying information in each fragment of the information stream is recorded by comparison signs to be identified.
Благодаря новой совокупности существенных признаков заявленного способа достигается сокращение объема памяти, требуемого для хранения признаков в БЭИП.Thanks to the new set of essential features of the claimed method, a reduction in the amount of memory required for storing the features in BEIP is achieved.
Проведенный анализ уровня техники обработки информации позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам технического решения, отсутствуют в доступных источниках информации, что указывает на соответствие заявленного способа условию патентоспособности «новизна».The analysis of the level of information processing technology has made it possible to establish that analogues that are characterized by a combination of features that are identical to all the features of a technical solution are not available in available sources of information, which indicates the compliance of the claimed method with the condition of patentability “novelty”.
Введенные в совокупности отличительные признаки: сокращение морфологического коэффициента, представленного в двоичной форме, за счет бинарного деления на двоичную постоянную R, равную размерности произведения (Nk×10), а также бинарное вычисление вторичной хеш-функции с основанием модуля, равным Nk, в двоичном представлении от сокращенного морфологического коэффициента в аналогах не встречаются. Следовательно, заявляемый способ соответствует критерию «изобретательский уровень».The distinctive features introduced in the aggregate: reduction of the morphological coefficient presented in binary form due to binary division by a binary constant R equal to the dimension of the product (N k × 10), as well as binary calculation of the secondary hash function with the base of the module equal to N k , in binary representation from the reduced morphological coefficient in counterparts are not found. Therefore, the claimed method meets the criterion of "inventive step".
Заявленный способ поясняется чертежами, на которых показаны:The claimed method is illustrated by drawings, which show:
на фиг.1 - блок-схема, поясняющая адресный способ обнаружения идентификационных признаков в информационных потоках;figure 1 is a block diagram explaining the address method for detecting identification features in information flows;
на фиг.2 - таблица «алфавита символов» и их кодовых значений;figure 2 - table "alphabet characters" and their code values;
на фиг.3 - сводная таблица словарных признаков отбора, количества символов в том признаке, адресов и морфологических для словарных признаков;figure 3 is a summary table of dictionary features of the selection, the number of characters in that feature, addresses and morphological for dictionary features;
на фиг.4 - сводная таблица словарных признаков с их морфологическими коэффициентами, рассчитанными по способу-прототипу и предлагаемому способу с требуемыми значениями памяти для хранения двоичных последовательностей этих морфологических коэффициентов;figure 4 is a summary table of vocabulary signs with their morphological coefficients calculated by the prototype method and the proposed method with the required memory values for storing binary sequences of these morphological coefficients;
на фиг.5 - сводная таблица словарных признаков, их адресов в десятичной форме записи для адресации в БЭИП, сокращенных по предлагаемому способу морфологических коэффициентов , вторичных хеш-функций от и их двоичное представление для БЭИП.figure 5 is a summary table of vocabulary signs, their addresses in decimal form for addressing in BEIP, abbreviated by the proposed method of morphological coefficients secondary hash functions from and their binary representation for BEIP.
Заявленное техническое решение достигается введением в способ-прототип дополнительных функциональных блоков и связей между функциональными блоками. На фигуре 1 представлена блок-схема, поясняющая адресный способ обнаружения идентификационных признаков в информационных потоках. В качестве функциональных блоков данной блок-схемы выступают следующие элементы:The claimed technical solution is achieved by introducing additional functional blocks and connections between functional blocks into the prototype method. The figure 1 presents a block diagram explaining the address method for detecting identification signs in information flows. The following elements act as functional blocks of this block diagram:
1 - функциональный блок сегментации информационного потока по словам;1 - functional block segmentation of the information flow according to the words;
2 - функциональный блок расчета морфологического коэффициента выделенного слова;2 - functional block for calculating the morphological coefficient of the selected word;
3 - функциональный блок расчета адреса БЭИП;3 - functional block for calculating the BEIP address;
4 - функциональный блок сокращения морфологического коэффициента;4 - functional block reduction of the morphological coefficient;
5 - функциональный блок расчета компактной записи эталонного информационного признака;5 is a functional block for calculating a compact record of a reference information feature;
6 - база эталонных информационных признаков (БЭИП);6 - base of reference information features (BEIP);
7 - функциональный блок сравнения информационных признаков.7 is a functional block comparing informational features.
Функциональные блоки 1, 2, 3, 6, 7 полностью реализуют действия, описанные в способе-прототипе, при этом информационные выходы функционального блока 2 являются по способу-прототипу информационными входами функциональных блоков 6 и 7. Для реализации нового технического решения в блок-схему способа-прототипа дополнительно введены функциональные блоки 4 и 5. В предлагаемом способе на вход функционального блока 1 поступают на этапе заполнения БЭИП отобранные словарные признаки, а при контроле информационного трафика - информационный поток. В функциональном блоке 1 осуществляется сегментация информационного потока по словам. Информационный выход функционального блока 1 является информационным входом функционального блока 2, где осуществляется расчет морфологического коэффициента для выделенного в блоке 1 слова. Информационные выходы функционального блока 2 являются информационными входами функциональных блоков 3 и 4. В функциональном блоке 3 осуществляется расчет адреса БЭИП для представленного из блока 2 морфологического коэффициента. Информационный выход функционального блока 3 является информационным входом блока 6. В функциональном блоке 4 осуществляется сокращение морфологического коэффициента, представленного функциональным блоком 2. Информационный выход функционального блока 4 является информационным входом функционального блока 5, где осуществляется преобразование сокращенного морфологического коэффициента к компактной форме записи в виде двоичной последовательности ограниченного объема. Информационный выход функционального блока 5 является информационным входом блока 6, в который по адресу, рассчитанному в функциональном блоке 3, осуществляется запись значения двоичной последовательности ограниченного объема из функционального блока 5. После заполнения БЭИП система адресного обнаружения идентификационных признаков в информационных потоках готова к использованию. Информационный поток через последовательность функциональных преобразований в функциональных блоках 1, 2, 4, 5 в виде двоичной последовательности ограниченного объема попадает из функционального блока 5 на вход функционального блока 7. Одновременно с этим на вход функционального блока 7 из блока 6 по адресу, рассчитанному в функциональном блоке 2, осуществляется считывание хранящейся в функциональном блоке 6 двоичной последовательности ограниченного объема. В функциональном блоке 7 осуществляется сравнение обеих двоичных последовательностей, и на выход выдается значение о наличии или отсутствии в текущем фрагменте информационного потока отобранных словарных признаков.
Рассмотрение заявленного способа целесообразно провести на примере действий, реализованных способом-прототипом, и дополнить необходимыми действиями для получения заявленного технического решения.Consideration of the claimed method, it is advisable to carry out the example of actions implemented by the prototype method, and supplement with the necessary actions to obtain the claimed technical solution.
Пусть в качестве словарных признаков отбора информационных сообщений выбрано N=100 словарных признаков. Словарные признаки: "банк", "железо", "маска", "машина", "рама", "самолет", "человек", "1985-подъем", - взяты из способа-прототипа. Из указанных N выбранных признаков выделяют содержащиеся в них и отличные друг от друга символы и формируют «алфавит символов» (АС) с присвоением каждому символу порядкового номера в АС. Будем считать, что в составе всех N признаков содержатся символы, сведенные в таблицу, изображенную на фигуре 2. Каждому символу из АС соответствует кодовое значение номера позиции nj.Let N = 100 dictionary features be selected as dictionary features for selecting informational messages. Vocabulary signs: "bank", "iron", "mask", "machine", "frame", "plane", "man", "1985 lift" - are taken from the prototype method. From the indicated N selected features, the characters contained in them and distinct from each other are distinguished and form the “alphabet of characters” (AC) with the assignment of a character serial number in the AC. We assume that the composition of all N features contains the symbols summarized in the table shown in figure 2. Each character from the AC corresponds to the code value of the position number n j .
Состав АС содержит совокупность отличающихся символов, достаточных для составления из них любого из N предварительно отобранных признаков.The composition of the AS contains a set of different characters, sufficient to compose from them any of the N pre-selected features.
Затем вычисляют для заданного значения коэффициента заполнения К БЭИП ее объем Nk=N/K, т.е. число строк в формируемой БЭИП. По аналогии со способом-прототипом K=0,2 соответственно число строк в базе эталонных информационных признаков будет равно:Then, for a given value of the duty factor K BEIP, its volume N k = N / K, i.e. the number of lines in the generated BEIP. By analogy with the prototype method K = 0.2, respectively, the number of lines in the database of reference information features will be equal to:
. .
Далее для каждого 1-го признака вычисляют его морфологический коэффициент di по формуле (1).Further, for each 1st characteristic, its morphological coefficient d i is calculated by the formula (1).
Далее с учетом вычисленного значения морфологического коэффициента определяют адрес Ai каждого 1-го признака, используя заданную хеш-функцию (формулу 2), т.е. определяют позицию эталонного признака в БЭИП. Формулу 2 можно упростить до выражения:Further, taking into account the calculated value of the morphological coefficient, the address A i of each 1st attribute is determined using the specified hash function (formula 2), i.e. determine the position of the reference characteristic in BEIP.
В данном случае адресация в БЭИП в отличие от адресации, рассчитываемой по формуле 2, будет отличаться на постоянную, равную 1, и занимать область адресов с 0 по 499. Обозначим получаемый по формуле 3 адрес как . Так как в морфологическом коэффициенте di уже содержится информация о значении адреса , неэффективно использовать избыточную информацию для хранения в БЭИП. Сократить морфологический коэффициент di предлагается делением морфологического коэффициента на постоянную R, равную размерности произведения (Nk×10). При Nk=500 постоянная R представляется величиной 3-го порядка - 1000 в десятичном представлении или в двоичном представлении - 1111101000. При представлении морфологического коэффициента di в десятичной форме записи для получения сокращенного морфологического коэффициента осуществляется деление di на постоянную R, далее дробная часть от деления отбрасывается, а оставляется только целая часть от деления. Так, для словарного признака "маска", занимающего 2-ю позицию словарного признака в таблице фигуры 3, морфологический коэффициент, рассчитываемый по формуле 1, составит в десятичной форме записи значение, равное 6961520. Для данного значения морфологического коэффициента адрес , рассчитываемый по формуле 3, составит значение:In this case, the addressing in BEIP, unlike the addressing calculated by
Так как в БЭИП доступно поле адресов от 0 до 499 при Nk=500, то последние значения размерности Nk не несут дополнительной информации, а уже содержатся в значении адреса .Since the address field from 0 to 499 is available in BEIP at N k = 500, the last values of dimension N k do not carry additional information, but are already contained in the address value .
Для 30 словарных признаков расчеты адресов, морфологических коэффициентов по способу-прототипу и сокращенных морфологических коэффициентов сведены в таблицу фигуры 3.For 30 vocabulary signs, the calculations of addresses, morphological coefficients according to the prototype method and reduced morphological coefficients are summarized in table 3.
Расчетные данные необходимого количества бит для хранения морфологических коэффициентов в БЭИП соответствующих словарных признаков сведены в таблицу фигуры 4. Так, для словарного признака "маска" в двоичной форме записи морфологический коэффициент имеет вид 11010100011100101110000, что соответствует 23 битам необходимого объема памяти. Для сокращенного морфологического коэффициента данное значение сократится до 13 бит и составит значение 1101100110001, что следует из решения:The calculated data of the required number of bits for storing the morphological coefficients in the BEIP of the corresponding vocabulary attributes is summarized in the table of figure 4. Thus, for the vocabulary tag “mask” in binary form, the morphological coefficient has the form 11010100011100101110000, which corresponds to 23 bits of the required memory size. For a reduced morphological coefficient, this value will be reduced to 13 bits and will be 1101100110001, which follows from the solution:
В среднем приведение морфологических коэффициентов к сокращенному виду повышает эффективность использования памяти для хранения эталонных информационных признаков на 10 бит для любого по длине словарного признака.On average, reducing morphological coefficients to an abbreviated form increases the efficiency of using memory for storing reference information attributes by 10 bits for any length of the vocabulary attribute.
Учитывая тот факт, что морфологические коэффициенты имеют различную длину, а следовательно, и требуют различные объемы памяти для хранения своих двоичных значений, необходимо привести отображение сокращенных морфологических признаков к компактному виду. При этом компактный вид отображения сокращенных признаков должен быть единого размера для любых по символьной длине словарных признаков. Для этого предлагается осуществить расчет вторичной хеш-функции от сокращенного морфологического коэффициента по формуле:Given the fact that morphological coefficients have different lengths and, therefore, require different amounts of memory to store their binary values, it is necessary to bring the display of abbreviated morphological characters to a compact form. At the same time, the compact form of displaying abbreviated features should be of the same size for any dictionary characters with respect to the symbolic length. For this, it is proposed to calculate the secondary hash function of the reduced morphological coefficient by the formula:
Выбор основания модуля Nk для расчета вторичной хеш-функции основывается на уже реализованной в способе-прототипе функциональным блоком 2 процедуре вычисления хеш-функции. Значение Nk также определяет Vm - необходимое значение объема информации в битах для хранения компактного бинарного значения признака по формуле:The choice of the base of the module N k for calculating the secondary hash function is based on the hash function calculation procedure already implemented in the prototype method by
В данном случае значение Vm составляет 8,965784, а при округлении до целого - 9 бит.In this case, the value of V m is 8.965784, and when rounded to the nearest integer - 9 bits.
Двоичные представления эталонных информационных признаков, записываемых в БЭИП по адресам, соответствующим словарным признакам отбора информации, представлены в таблице фигуры 5.Binary representations of the reference information signs recorded in the BEIP at the addresses corresponding to the dictionary signs of the selection of information are presented in the table of figure 5.
Обоснование положительного эффекта предлагаемого способа осуществлено следующим образом. Показателем эффективности обнаружения идентификационных признаков в информационных потоках является необходимый объем памяти БЭИП, следовательно, более эффективным является способ, требующий меньший объем памяти для хранения эталонных информационных признаков в БЭИП. Для N словарных признаков, представленных в таблице на фигуре 4, условная эффективность использования памяти для хранения эталонных информационных признаков η(Mi) при реализации Mi способа определяется по формуле:The rationale for the positive effect of the proposed method is as follows. An indicator of the effectiveness of detection of identification features in information flows is the required amount of BEIP memory; therefore, a more efficient method is that requiring a smaller amount of memory for storing reference information signs in BEIP. For N vocabulary features presented in the table in figure 4, the conditional memory efficiency for storing reference information features η (M i ) when implementing the M i method is determined by the formula:
где N - количество словарных признаков;where N is the number of dictionary features;
- среднее количество бит, необходимых для хранения одного признака; - the average number of bits required to store one attribute;
Scp - среднее количество символов в словарном признаке.S cp is the average number of characters in a dictionary feature.
Среднее количество символов для словарных признаков, представленных в таблице на фигуре 3, составляет 6,4 символа на слово при количестве словарных признаков, равном 30.The average number of characters for the dictionary features presented in the table in figure 3 is 6.4 characters per word with the number of dictionary features equal to 30.
Для способа-прототипа среднее количество бит, необходимое для хранения одного словарного признака с учетом данных, представленных в таблице фигуры 4, составит значение, равное 29,7 бит/словарный признак. С учетом этого условная эффективность использования памяти для хранения эталонных информационных признаков для способа-прототипа составит:For the prototype method, the average number of bits required to store one dictionary attribute, taking into account the data presented in the table of figure 4, will be a value equal to 29.7 bits / dictionary attribute. With this in mind, the conditional efficiency of using memory to store reference information features for the prototype method will be:
При представлении в качестве эталонных информационных признаков сокращенных морфологических коэффициентов условная эффективность использования памяти для хранения эталонных информационных признаков составит 92,34375 бит/символ.When abbreviated morphological coefficients are presented as reference information features, the conditional memory efficiency for storing reference information features will be 92.34375 bits / symbol.
При реализации предлагаемого способа условная эффективность использования памяти для хранения эталонных информационных признаков составит:When implementing the proposed method, the conditional efficiency of memory use for storing reference information features will be:
Таким образом, использование памяти для хранения информационных признаков по предлагаемому способу по отношению к способу-прототипу эффективней в 3,3 раза.Thus, the use of memory for storing information signs of the proposed method in relation to the prototype method is 3.3 times more effective.
Практическая реализация предлагаемого способа не требует больших дополнительных вычислительных затрат, так как вычисление бинарного значения по модулю является бинарной операцией точно так же, как являются бинарными операции сложения и вычитания (Конкретная математика. Основание информатики / Р.Грэхем, Д.Кнут, О.Паташник. Пер. с англ. - 2-е изд., испр. - М.: Мир; БИНОМ. Лаборатория знаний, 2006. - С.104).The practical implementation of the proposed method does not require large additional computational costs, since the calculation of a binary value modulo is a binary operation in the same way as the addition and subtraction operations are binary (Specific Mathematics. Basics of Computer Science / R. Graham, D. Knut, O. Patashnik Translated from English - 2nd ed., Rev. - M.: Mir; BINOM. Laboratory of Knowledge, 2006. - P.104).
Введенные в способ-прототип два дополнительных действия:Two additional actions introduced into the prototype method:
1) бинарное деление морфологического коэффициента, рассчитанного по способу-прототипу и представленного в двоичной форме записи, на двоичную постоянную R, равную размерности произведения (Nk×10);1) a binary division of the morphological coefficient calculated by the prototype method and presented in binary notation by the binary constant R equal to the dimension of the product (N k × 10);
2) бинарное вычисление вторичной хеш-функции с основанием модуля, равным Nk, в двоичном представлении от сокращенного морфологического коэффициента в двоичной форме записи,2) binary calculation of the secondary hash function with the base of the module equal to N k in binary representation of the reduced morphological coefficient in binary form,
возможно реализовать на существующей в настоящее время элементной базе, например на любых серийно выпускаемых программируемых логических интегральных схемах (ПЛИС).it is possible to implement on the currently existing element base, for example, on any commercially available programmable logic integrated circuits (FPGA).
Таким образом, из рассмотренной сущности заявляемого способа следует, что он обеспечивает сокращение необходимого объема памяти хранения эталонных информационных признаков. Это подтверждает положительный эффект от внедрения предлагаемого способа.Thus, from the considered essence of the proposed method, it follows that it provides a reduction in the required amount of memory for storing reference information features. This confirms the positive effect of the implementation of the proposed method.
Claims (1)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2009120255/08A RU2409850C1 (en) | 2009-05-27 | 2009-05-27 | Address method of detecting identification features in information streams |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2009120255/08A RU2409850C1 (en) | 2009-05-27 | 2009-05-27 | Address method of detecting identification features in information streams |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2009120255A RU2009120255A (en) | 2010-12-10 |
RU2409850C1 true RU2409850C1 (en) | 2011-01-20 |
Family
ID=46306019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2009120255/08A RU2409850C1 (en) | 2009-05-27 | 2009-05-27 | Address method of detecting identification features in information streams |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2409850C1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2473964C1 (en) * | 2011-12-16 | 2013-01-27 | Государственное казенное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) | Method of detecting identification features for different letter-symbol writing systems |
-
2009
- 2009-05-27 RU RU2009120255/08A patent/RU2409850C1/en not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2473964C1 (en) * | 2011-12-16 | 2013-01-27 | Государственное казенное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) | Method of detecting identification features for different letter-symbol writing systems |
Also Published As
Publication number | Publication date |
---|---|
RU2009120255A (en) | 2010-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102244417B1 (en) | Hazardous address identification method, apparatus and electronic device | |
CN112131920B (en) | Data structure generation for table information in scanned images | |
US8380753B2 (en) | Reconstruction of lists in a document | |
US7310773B2 (en) | Removal of extraneous text from electronic documents | |
CN109918658B (en) | Method and system for acquiring target vocabulary from text | |
CN112380825B (en) | PDF document cross-page table merging method and device, electronic equipment and storage medium | |
US11645447B2 (en) | Encoding textual information for text analysis | |
WO2016095645A1 (en) | Stroke input method, device and system | |
KR20170004983A (en) | Line segmentation method | |
CN113157927A (en) | Text classification method and device, electronic equipment and readable storage medium | |
CN112784009B (en) | Method and device for mining subject term, electronic equipment and storage medium | |
CN115668384A (en) | Mass fraction compression | |
CN109685061A (en) | The recognition methods of mathematical formulae suitable for structuring | |
RU2409850C1 (en) | Address method of detecting identification features in information streams | |
CN113806492A (en) | Record generation method, device and equipment based on semantic recognition and storage medium | |
CN108920705A (en) | A kind of coding method of knowledge point identification and device | |
CN113553410B (en) | Long document processing method, processing device, electronic equipment and storage medium | |
CN112132150B (en) | Text string recognition method and device and electronic equipment | |
CN110781292A (en) | Text data multi-level classification method and device, electronic equipment and storage medium | |
CN114943306A (en) | Intention classification method, device, equipment and storage medium | |
CN113779990A (en) | Chinese word segmentation method, device, equipment and storage medium | |
CN111859972A (en) | Entity identification method, entity identification device, computer equipment and computer readable storage medium | |
JP5824429B2 (en) | Spam account score calculation apparatus, spam account score calculation method, and program | |
RU2473964C1 (en) | Method of detecting identification features for different letter-symbol writing systems | |
RU2282889C1 (en) | Method for processing information for detecting identification signs in informational streams |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20110528 |