RU2568272C2 - Device for semantic analysis of text data - Google Patents

Device for semantic analysis of text data Download PDF

Info

Publication number
RU2568272C2
RU2568272C2 RU2014115194/08A RU2014115194A RU2568272C2 RU 2568272 C2 RU2568272 C2 RU 2568272C2 RU 2014115194/08 A RU2014115194/08 A RU 2014115194/08A RU 2014115194 A RU2014115194 A RU 2014115194A RU 2568272 C2 RU2568272 C2 RU 2568272C2
Authority
RU
Russia
Prior art keywords
input
inputs
output
input registers
passage
Prior art date
Application number
RU2014115194/08A
Other languages
Russian (ru)
Other versions
RU2014115194A (en
Inventor
Александр Алексеевич Бурба
Александр Васильевич Полтавский
Елена Юрьевна Русяева
Original Assignee
Александр Алексеевич Бурба
Александр Васильевич Полтавский
Елена Юрьевна Русяева
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Александр Алексеевич Бурба, Александр Васильевич Полтавский, Елена Юрьевна Русяева filed Critical Александр Алексеевич Бурба
Priority to RU2014115194/08A priority Critical patent/RU2568272C2/en
Publication of RU2014115194A publication Critical patent/RU2014115194A/en
Application granted granted Critical
Publication of RU2568272C2 publication Critical patent/RU2568272C2/en

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

FIELD: physics.
SUBSTANCE: claimed device comprises the set of input registers, input registers of the division unit set, set of the units of subtraction modulo, accumulation adder, division unit, comparator unit, indication unit, clock pulse oscillator and pulse distributor.
EFFECT: higher validity of test data authorship.
2 dwg, 1 tbl

Description

Изобретение относится к вычислительной технике и может быть использовано при расчетах, связанных с идентификацией текстовой информации в случаях определения ее автора.The invention relates to computer technology and can be used in calculations related to the identification of textual information in cases of determining its author.

Заявителям неизвестно о том, чтобы такая техническая задача решалась подобным образом. Это объясняется тем, что отсутствуют числовые методы содержательного анализа различных частей текстовой информации.Applicants are not aware that such a technical problem would be handled in this way. This is because there are no numerical methods for meaningful analysis of various parts of textual information.

Техническим результатом заявленного решения является повышение уровня достоверности определения авторства текстовой информации и расширение арсенала технических средств. Это дает возможность принимать более объективные решения при защите авторских прав создателей текстовой информации.The technical result of the claimed solution is to increase the level of reliability of determining the authorship of textual information and expand the arsenal of technical means. This makes it possible to make more objective decisions when protecting the copyrights of the creators of textual information.

Числовой содержательный анализ текстовой информации осуществляется следующим образом. Два отрывка текстовой информации можно сравнить путем сопоставления информации о вероятностях появления какой-либо буквы в двух различных отрывках. Среднее значение разности ΔPср между вероятностью появления i-й буквы отрывка «а» Pаi, и вероятностью появления j-й буквы отрывка «б» Pбj оценивается по следующей формуле:A numerical content analysis of textual information is carried out as follows. Two passages of textual information can be compared by comparing information about the probabilities of a letter appearing in two different passages. The average value of the difference ΔP cf between the probability of occurrence of the ith letter of passage "a" P ai , and the probability of occurrence of the jth letter of passage "b" P bj is estimated by the following formula:

Δ P с р = 1 n k 1 n | P а i P б j | k , k = 1, n , ( 1 )

Figure 00000001
Δ P from R = one n k one n | P but i - P b j | k , k = one, ... n , ( one )
Figure 00000001

i=1, …, mаi, j=1, …, mбj,i = 1, ..., m аi , j = 1, ..., m бj ,

где n - количество букв в алфавитеwhere n is the number of letters in the alphabet

mаi - количество i-й буквы в отрывке «а»,m ai - the number of i-th letter in the passage "a",

mбj - количество j-й буквы в отрывке «б».m bj is the number of the jth letter in the passage "b".

Сравнивая величину ΔPср с допустимым значением ΔPд, можно сделать вывод о принадлежности двух отрывков «а» и «б» текстовой информации одному автору. Если ΔPср≤ΔPд, то отрывки «а» и «б» принадлежат одному автору. В противном случае (ΔPср>ΔPд) авторы этих отрывков различны.Comparing the value of ΔP cf with a permissible value of ΔP d , we can conclude that two passages “a” and “b” of textual information belong to one author. If ΔP av ≤ΔP d , then passages “a” and “b” belong to the same author. Otherwise (ΔP cf > ΔP d ) the authors of these passages are different.

Вероятности Pаi, и Pбj определяются по следующим формулам:The probabilities P ai and P bj are determined by the following formulas:

P а i = m а i N а , i = 1 , m а , ( 2 )

Figure 00000002
P but i = m but i N but , i = one ... , m but , ( 2 )
Figure 00000002

P б i = m б i N б , j = 1, , m б , ( 3 )

Figure 00000003
P b i = m b i N b , j = one, ... , m b , ( 3 )
Figure 00000003

где Nа - общее количество букв в отрывке «а»,where N a is the total number of letters in the passage "a",

Nб - общее количество букв в отрывке «б».N b - the total number of letters in the passage "b".

Для иллюстрации разработанного подхода целесообразно рассмотреть пример. В качестве объектов содержательного анализа можно использовать стихотворения Иосифа Бродского «Одиссей Телемаку» (отрывок «а») и «На смерть Жукова» (отрывок «б»).To illustrate the developed approach, it is advisable to consider an example. As objects of meaningful analysis, one can use the poems of Joseph Brodsky “Odyssey Telemaku” (passage “a”) and “On the death of Zhukov” (passage “b”).

Одиссей ТелемакуOdysseus Telemaco

Мой Телемак,My Telemac

Троянская войнаTrojan war

окончена. Кто победил - не помню.over. I won’t remember who won.

Должно быть, греки: столько мертвецовThe Greeks must be: so many dead

вне дома бросить могут только греки…only Greeks can throw out ...

И все-таки ведущая домойAnd still leading home

дорога оказалась слишком длинной,the road was too long

как будто Посейдон, пока мы тамas if Poseidon while we are there

теряли время, растянул пространство.lost time, stretched out the space.

Мне неизвестно, где я нахожусь,I don’t know where I am

что передо мной. Какой-то грязный остров,what's in front of me. Some kind of dirty island

кусты, постройки, хрюканье свиней,bushes, buildings, grunts of pigs,

заросший сад, какая-то царица,overgrown garden, some queen,

трава да камни… Милый Телемак,grass and stones ... Dear Telemac,

все острова похожи друг на друга,all islands are alike

когда так долго странствуешь, и мозгwhen you wander for so long and the brain

уже сбивается, считая волны,already getting lost counting the waves

глаз, засоренный горизонтом, плачет,a clogged eye crying

и водяное мясо застит слух.and watery meat will catch your ears.

Не помню я, чем кончилась война,I don’t remember how the war ended,

и сколько лет тебе сейчас, не помню.and how old are you now, I don’t remember.

Расти большой, мой Телемак, расти.Grow big, my Telemac, grow.

Лишь боги знают, свидимся ли снова.Only the gods know whether we will meet again.

Ты и сейчас уже не тот младенец,You are now not the same baby

перед которым я сдержал быков.before which I held back the bulls.

Когда б не Паламед, мы жили вместе.When not Palamed, we lived together.

Но, может быть, и прав он: без меняBut maybe he is right: without me

ты от страстей Эдиповых избавлен,you are delivered from the passions of the Oedipus

и сны твои, мой Телемак, безгрешны.and your dreams, my Telemac, are sinless.

На смерть ЖуковаTo the death of Zhukov

Вижу колонны замерших внуков,I see columns of frozen grandchildren

гроб на лафете, лошади круп.coffin on a gun carriage, horse croup.

Ветер сюда не доносит мне звуковThe wind doesn't bring me sounds here

русских военных плачущих труб.Russian military weeping pipes.

Вижу в регалии убранный труп:I see the corpse removed in regalia:

в смерть уезжает пламенный Жуков.the fiery Zhukov leaves for death.

Воин, пред коим многие палиWarrior, before whom many fell

стены, хоть меч был вражьих тупей,walls, even though the sword was enemy blunts,

блеском маневра о Ганнибалеthe brilliance of the Hannibal maneuver

напоминавший средь волжских степей.reminiscent of the Volga steppes.

Кончивший дни свои глухо, в опале,Ending his days deaf, in disgrace,

как Велизарий или Помпей.like Belisarius or Pompey.

Сколько он пролил крови солдатскойHow much he shed the soldier’s blood

в землю чужую! Что ж, горевал?into a strange land! Well, grieving?

Вспомнил ли их, умирающий в штатскойDid the dying civilian remember them

белой кровати? Полный провал.white bed? Complete failure.

Что он ответит, встретившись в адскойWhat will he answer by meeting in hellish

области с ними? «Я воевал».areas with them? "I fought."

К правому делу Жуков десницыTo the right case of the beetles Zhukov

больше уже не приложит в бою.will no longer attach to battle.

Спи! У истории русской страницыGo to sleep! The history of the Russian page

хватит для тех, кто в пехотном строюenough for those in the infantry formation

смело входили в чужие столицы,boldly entered foreign capitals,

но возвращались в страхе в свою.but returned in fear to their own.

Анализ этих текстов показывает, что общее количество букв в отрывке «a» Nа=745, a в отрывке «б» Nб=611. Количество букв в русском алфавите n=33. Количество i-й буквы mаi в отрывке «а» и j-й буквы mбj в отрывке «б» приведены в таблице 1, вероятности появления i-й буквы отрезка «а» Pаi, и i-й буквы отрезка «б» Pбj, определяемые по формулам, соответственно (2) и (3), представлены также в таблице 1.An analysis of these texts shows that the total number of letters in the passage "a" N a = 745, and in the passage "b" N b = 611. The number of letters in the Russian alphabet is n = 33. The number of the i-th letter m ai in the passage “a” and the j-th letter m bj in the passage “b” are shown in Table 1, the probability of occurrence of the i-th letter of the segment “a” P ai , and the i-th letter of the segment “b” »P bj defined by formulas, respectively (2) and (3), are also presented in table 1.

Таблица 1Table 1 Вероятности появления различных букв в двух стихотворениях.The probabilities of the appearance of various letters in two poems. Буквы русского алфавитаLetters of the Russian alphabet АBUT БB ВAT ГG ДD ЕE ЕE ЖF З3 ИAND ЙTh mаi m ai 6060 14fourteen 2525 1616 2525 6060 1one 88 1313 4040 18eighteen Pаi P ai 0,0810,081 0,0190.019 0,0340,034 0,0210,021 0,0340,034 0,0810,081 0,0010.001 0,0110.011 0,0170.017 0,0540,054 0,0240.024 mбj m bj 3636 1010 4545 66 1212 4141 1one 1212 66 5454 15fifteen Pбj P bj 0,0590.059 0,0160.016 0,0740,074 0,0100.010 0,0200,020 0,0670,067 0,0020.002 0,0200,020 0,0100.010 0,0880,088 0,0250,025 |Pаi-Pбj|| P ai -P bj | 0,0220,022 0,0030.003 0,0400,040 0,0110.011 0,0140.014 0,0140.014 0,0010.001 0,0090.009 0,0070.007 0,0340,034 0,0010.001

Продолжение таблицы 1Continuation of table 1 Буквы русского алфавитаLetters of the Russian alphabet КTO ЛL МM НN ОABOUT ПP РR СFROM ТT УAt ФF mаi m ai 3333 30thirty 3434 4646 8383 15fifteen 3333 4545 5454 1212 00 Pаi P ai 0,0440,044 0,0400,040 0,0460,046 0,0620,062 0,1110,111 0,0200,020 0,0440,044 0,0600,060 0,0720,072 0,0160.016 00 mбj m bj 2323 3535 18eighteen 3434 6161 20twenty 30thirty 3333 3434 2424 1one Pбj P bj 0,0380,038 0,0570,057 0,0290,029 0,0560.056 0,1000,100 0,0330,033 0,0490,049 0,0540,054 0,0560.056 0,0390,039 0,0020.002 |Pаi-Pбj|| P ai -P bj | 0,0060.006 0,0170.017 0,0170.017 0,0060.006 0,0110.011 0,0130.013 0,0050.005 0,0060.006 0,0160.016 0,0230,023 0,0020.002

Окончание таблицы 1End of table 1 Буквы русского алфавитаLetters of the Russian alphabet ХX ЦTs ЧH ШW ЩU ЪB ЫS БB ЭE ЮYU ЯI AM mаi m ai 55 4four 88 66 1one 00 1616 1313 1one 55 1717 Pаi P ai 0,0070.007 0,0050.005 0,0110.011 0,0080.008 0,0010.001 00 0,0210,021 0,0170.017 0,0010.001 0,0070.007 0,0230,023 mбj m bj 14fourteen 33 77 66 33 00 1010 88 00 77 22 Pбj P bj 0,0230,023 0,0050.005 0,0110.011 0,0100.010 0,0050.005 00 0,0160.016 0,0130.013 0,0 0,0110.011 0,0030.003 |Pаi-Pбj|| P ai -P bj | 0,0160.016 00 00 0,0020.002 0,0040.004 00 0,0050.005 0,0040.004 0,0010.001 0,0040.004 0,0200,020

В нижней строке таблицы 1 размещены величины модуля разности |Pаi-Pбj|.The bottom line of table 1 contains the magnitude of the difference modulus | P ai -P bj |.

Сумма этих величин равна 0,334, среднее значение разности ΔPср между вероятностью появления i-й буквы отрывка «а» Pаi и вероятностью появления i-й буквы отрывка «б» Pбj оценивается по формуле (1):The sum of these values is 0.334, the average value of the difference ΔP cf between the probability of occurrence of the ith letter of passage "a" P ai and the probability of occurrence of the i-letter of passage "b" P bj is estimated by the formula (1):

Δ P с р = 1 33 0,334 = 0,01

Figure 00000004
Δ P from R = one 33 0.334 = 0.01
Figure 00000004

Если принять допустимое значение этой вероятности ΔPд=0,02, то можно делать вывод о том, что отрывки «а» и «б» принадлежат одному автору.If we accept the acceptable value of this probability ΔP d = 0.02, then we can conclude that the passages “a” and “b” belong to the same author.

Технический результат достигается тем, что устройство для содержательного анализа текстовой информации содержит первую и вторую группы входных регистров, состоящие из n элементов, с первого по четвертый входные регистры, первую и вторую группы блоков деления, состоящие из n элементов, группу блоков вычитания по модулю, состоящую из n элементов, накопительный сумматор, блок деления, блок сравнения, блок индикации, генератор тактовых импульсов и распределитель импульсов (РИ), тактовый вход которого соединен с выходом генератора тактовых импульсов, первый выход РИ - с входами записи первой и второй групп входных регистров, а также с входами записи первого, второго, третьего и четвертого входных регистров, второй выход - с входами считывания первой и второй групп входных регистров, а также первого и второго входных регистров, третий и четвертый выходы - с входами считывания соответственно третьего и четвертого входных регистров, информационные входы с первого по n-й элементов первой группы входных регистров являются входом задания исходной информации, на которые поступают значения mаi, характеризующие количество i-й буквы в отрывке «а», информационные входы с первого по n-й элементов второй группы входных регистров являются входом задания исходной информации, на которые поступают значения mбj, характеризующие количество j-й буквы в отрывке «б», информационные входы с первого по четвертый входных регистров являются входами задания исходной информации, на которые поступают соответственно значение Νа, характеризующее общее количество букв отрывка «а», значение Νб, характеризующее общее количество букв в отрывке «б», значение n, характеризующее количество букв в алфавите, значение ΔPд, характеризующее величину допустимого значения средней разности между вероятностью появления i-й буквы отрывка «а» и вероятностью появления j-й буквы в отрывке «б», выходы, с первого по n-й, элементов первой и второй групп входных регистров соединены с входами делимого каждого соответствующего элемента соответственно первой и второй групп блоков деления, входы делителя которых подключены к выходам соответственно первого и второго входных регистров, а выходы - соответственно к выходам уменьшаемого и к входам вычитаемого группы блоков вычитания по модулю, выходы которых соединены с входами, с первого по n-й, накопительного сумматора, выход которого подключен к входу делимого блока деления, вход делителя которого соединен с выходом третьего входного регистра, а выход - с информационным входом блока сравнения, пороговый вход которого подключен к выходу четвертого входного регистра, а выход - к входу блока индикации.The technical result is achieved by the fact that the device for the meaningful analysis of textual information contains the first and second groups of input registers consisting of n elements, the first to fourth input registers, the first and second groups of division blocks, consisting of n elements, a group of subtraction blocks modulo, consisting of n elements, an accumulative adder, a division unit, a comparison unit, an indication unit, a clock generator and a pulse distributor (RI), the clock input of which is connected to the output of the clock generator pulses, the first output of RI - with the recording inputs of the first and second groups of input registers, as well as with the recording inputs of the first, second, third and fourth input registers, the second output - with the reading inputs of the first and second groups of input registers, as well as the first and second input registers, the third and fourth outputs - with read inputs of the third and fourth input registers, respectively, information inputs from the first to the n-th elements of the first group of input registers are the input of the job of the initial information, to which the m ai , characterizing the number of the i-th letter in the passage "a", the information inputs from the first to the n-th elements of the second group of input registers are the input of the job initial information, which receives the values m bj , characterizing the number of the j-th letter in the passage "B", the information inputs from the first to the fourth input registers are inputs of the initial information, which receive respectively the value Ν a , characterizing the total number of letters in the passage "a", the value Ν b , characterizing the total number of letters in the passage e "b", the value of n, characterizing the number of letters in the alphabet, the value of ΔP d , characterizing the value of the permissible value of the average difference between the probability of occurrence of the i-letter of the passage "a" and the probability of occurrence of the j-letter in the passage of "b", outputs, from the first to the nth, the elements of the first and second groups of input registers are connected to the inputs of the dividend of each corresponding element, respectively, of the first and second groups of division blocks, the inputs of the divider of which are connected to the outputs of the first and second input registers, respectively, and the outputs, respectively As regards the outputs of the reducible and the inputs of the subtracted group of subtraction blocks modulo, the outputs of which are connected to the inputs from the first to the nth accumulative adder, the output of which is connected to the input of the divisible division unit, the input of the divider of which is connected to the output of the third input register, and the output is with the information input of the comparison unit, the threshold input of which is connected to the output of the fourth input register, and the output to the input of the display unit.

На фиг. 1 представлена функциональная схема устройства для содержательного анализа текстовой информации (для ликвидации громоздкости связи между РИ и управляющими входами соответствующих блоков показаны не полностью, а обозначены путем нумерации входов и выходов); на фиг. 2 изображена циклограмма работы заявленного устройства (на оси ординат обозначены номера входов РИ, а по оси абсцисс - число тактов), причем длительность различных вычислительных операций (сложение и вычитание - один такт, деление - двенадцать тактов) в верхней части фиг. 2.In FIG. 1 is a functional diagram of a device for meaningful analysis of textual information (to eliminate the cumbersomeness of communication between RI and the control inputs of the respective blocks, they are not shown completely, but are indicated by numbering the inputs and outputs); in FIG. 2 shows a sequence diagram of the operation of the claimed device (the numbers of inputs of the RI are indicated on the ordinate axis, and the number of ticks on the abscissa axis), and the duration of various computational operations (addition and subtraction is one clock cycle, division is twelve cycles) in the upper part of FIG. 2.

Устройство для содержательного анализа текстовой информации (фиг. 1) содержит первую 1 и вторую 2 группы входных регистров, каждая из которых состоит из n элементов, первый 3, второй 4, третий 5 и четвертый 6 входные регистры, первую 7 и вторую 8 группы блоков деления, каждая из которых состоит из n элементов, группу 9 блоков вычитания по модулю, состоящую из n элементов, накопительный сумматор 10, блок 11 деления, блок 12 сравнения, блок 13 индикации, генератор 14 тактовых импульсов и распределитель 15 импульсов.A device for the meaningful analysis of textual information (Fig. 1) contains the first 1 and second 2 groups of input registers, each of which consists of n elements, the first 3, second 4, third 5 and fourth 6 input registers, the first 7 and second 8 groups of blocks divisions, each of which consists of n elements, a group of 9 subtraction blocks modulo consisting of n elements, an accumulative adder 10, a division unit 11, a comparison unit 12, an indication unit 13, a clock pulse generator 14 and a pulse distributor 15.

Устройство для содержательного анализа текстовой информации работает следующим образом. На информационные входы с первого по n-й элементов первой группы 1 входных регистров (фиг. 1) засылаются соответственно величины mа1, …mаi, …mаn, а на информационные входы с первого по n-й элементов второй группы 2 входных регистров подаются соответственно значения mб1, …mбi, …mбn.A device for a meaningful analysis of text information works as follows. In the data inputs of the first through n-th elements of the first group 1 of the input registers (FIG. 1) is saved into respectively magnitude m a1, ... m ai, ... m AN, while the data inputs of the first through n-th elements of the second group of two input registers respectively, the values of m b1 , ... m bi , ... m bn .

На информационные входы первого 3, второго 4, третьего 5 и четвертого 6 входных регистров направляются соответственно величины Nа, Nб, n и ΔPд. При этом управляющий сигнал на входы записи всех элементов этих групп входных регистров и входных регистров подается с первого выхода РИ 15, темп работы которого задается генератором 14 тактовых импульсов.The information inputs of the first 3, second 4, third 5 and fourth 6 input registers are sent, respectively, the values of N a , N b , n and ΔP d . Moreover, the control signal to the recording inputs of all elements of these groups of input registers and input registers is supplied from the first output of RI 15, the pace of which is set by the generator 14 clock pulses.

По сигналу со второго выхода РИ 15 на входы считывания первой 1 и второй 2 групп входных регистров величины mаi и mбj с их выходов засылаются на входы делимого соответственно первой 7 и второй 8 групп блоков деления. На входы делителя этих групп направляются по сигналу со второго выхода РИ 15 с выходов соответственно первого 3 и второго 4 входных регистров значения Nа и Nб. С выходов первой 7 и второй 8 групп блоков деления величины Pаi, и Pбj, определяемые по формулам (2) и (3), поступают соответственно на входы уменьшаемого и входы вычитаемого группы 9 блоков вычитания по модулю. С выходов этой группы величины |Pаi-Pбj|k засылаются на входы накопительного сумматора 10, с выхода которого значение 1 n k 1 n | P а i P б j | k

Figure 00000005
, подается на вход делимого блока 11 деления. На вход делителя этого блока по сигналу с третьего выхода РИ 15 направляется с выхода третьего входного регистра 5 величина n. С выхода блока 11 деления значение ΔPср, определяемое по формуле (1), поступает на информационный вход блока 12 сравнения, на пороговый вход которого по сигналу с четвертого выхода РИ 15 засылается с выхода четвертого входного регистра 6 величина ΔPд.According to the signal from the second output of RI 15 to the read inputs of the first 1 and second 2 groups of input registers, the quantities m ai and m bj from their outputs are sent to the inputs of the dividend of the first 7 and second 8 groups of division blocks, respectively. The values ​​of N a and N b are sent to the inputs of the divider of these groups according to the signal from the second output of RI 15 from the outputs of the first 3 and second 4 input registers, respectively. From the outputs of the first 7 and second 8 groups of dividing blocks, the quantities P ai and P bj , determined by formulas (2) and (3), are respectively supplied to the inputs of the decremented and the inputs of the subtracted group of 9 subtraction blocks modulo. From the outputs of this group, the quantities | P ai -P bj | k are sent to the inputs of the accumulative adder 10, from the output of which the value one n k one n | P but i A. - P b j | k
Figure 00000005
is fed to the input of the divisible division block 11. The value of n is sent to the input of the divider of this block by the signal from the third output of RI 15 from the output of the third input register 5. From the output of the division value ΔP Wed defined by formula (1) of the block 11 is supplied to the data input of the comparator 12, a threshold which the signal output from the fourth input RI 15 6 to send a fourth input register output value ΔP d.

Если ΔPср≤ΔPд (отрывки «а» и «б» принадлежат одному автору) на выходе блока 12 сравнения появится сигнал, который приведет к загоранию блока 13 индукции. В противном случае, когда ΔPср>ΔPд сигнала на выходе блока 12 сравнения не будет и блок 13 индукции не засветится, это будет свидетельствовать о том, что отрывки «а» и «б» принадлежат разным авторам. Порядок функционирования блоков устройства представлен на циклограмме его работы (фиг. 2).If ΔP av ≤ΔP d (excerpts “a” and “b” belong to the same author), a signal will appear at the output of the comparison unit 12, which will cause the induction unit 13 to light up. Otherwise, when ΔP sr > ΔP d there is no signal at the output of the comparison unit 12 and the induction unit 13 does not light up, this will indicate that the passages “a” and “b” belong to different authors. The operating order of the device blocks is shown in the cyclogram of its operation (Fig. 2).

Таким образом, технический результат достигается не за счет математического аппарата, а за счет технических средств (блоков и элементов), упомянутых в процессе описания работы устройства, осуществляющего повышение уровня достоверности определения авторства текстовой информации и расширение арсенала технических средств.Thus, the technical result is achieved not at the expense of the mathematical apparatus, but at the expense of the technical means (blocks and elements) mentioned in the process of describing the operation of the device, which increases the level of reliability of determining the authorship of text information and expands the arsenal of technical means.

Промышленная применимость изобретения обосновывается тем, что оно может быть использовано в разных областях (отраслях) при расчетах, связанных с идентификацией текстовой информации в случаях определения ее автора с целью принятия объективных решений при защите авторских прав создателей текстовой информации.The industrial applicability of the invention is justified by the fact that it can be used in different areas (industries) in the calculations associated with the identification of textual information in cases of determining its author with the aim of making objective decisions in protecting copyright of the creators of textual information.

Claims (1)

Устройство для содержательного анализа текстовой информации, содержащее первую и вторую группы входных регистров, состоящие из n элементов, с первого по четвертый входные регистры, первую и вторую группы блоков деления, состоящие из n элементов, группу блоков вычитания по модулю, состоящую из n элементов, накопительный сумматор, блок деления, блок сравнения, блок индикации, генератор тактовых импульсов и распределитель импульсов (РИ), тактовый вход которого соединен с выходом генератора тактовых импульсов, первый выход РИ - с входами записи первой и второй групп входных регистров, а также с входами записи первого, второго, третьего и четвертого входных регистров, второй выход - с входами считывания первой и второй групп входных регистров, а также первого и второго входных регистров, третий и четвертый выходы - с входами считывания соответственно третьего и четвертого входных регистров, информационные входы с первого по n-й элементов первой группы входных регистров являются входом задания исходной информации, на которые поступают значения mаi, характеризующие количество i-й буквы в отрывке «а», информационные входы с первого по n-й элементов второй группы входных регистров являются входом задания исходной информации, на которые поступают значения mбj, характеризующие количество j-й буквы в отрывке «б», информационные входы с первого по четвертый входных регистров являются входами задания исходной информации, на которые поступают соответственно значение Νа, характеризующее общее количество букв отрывка «а», значение Νб, характеризующее общее количество букв в отрывке «б», значение n, характеризующее количество букв в алфавите, значение ΔP, характеризующее величину допустимого значения средней разности между вероятностью появления i-й буквы отрывка «а» и вероятностью появления j-й буквы в отрывке «б», выходы, с первого по n-й, элементов первой и второй групп входных регистров соединены с входами делимого каждого соответствующего элемента соответственно первой и второй групп блоков деления, входы делителя которых подключены к выходам соответственно первого и второго входных регистров, а выходы - соответственно к выходам уменьшаемого и к входам вычитаемого группы блоков вычитания по модулю, выходы которых соединены с входами, с первого по n-й, накопительного сумматора, выход которого подключен к входу делимого блока деления, вход делителя которого соединен с выходом третьего входного регистра, а выход - с информационным входом блока сравнения, пороговый вход которого подключен к выходу четвертого входного регистра, а выход - к входу блока индикации. A device for the meaningful analysis of text information containing the first and second groups of input registers consisting of n elements, the first to fourth input registers, the first and second groups of division blocks, consisting of n elements, a group of subtraction blocks modulo consisting of n elements, accumulative adder, division unit, comparison unit, display unit, clock generator and pulse distributor (RI), the clock input of which is connected to the output of the clock generator, the first output of the RI - with recording inputs the first and second groups of input registers, as well as with the recording inputs of the first, second, third and fourth input registers, the second output - with the reading inputs of the first and second groups of input registers, as well as the first and second input registers, the third and fourth outputs - with inputs reading the third and fourth input registers, the data inputs of the first through n-th elements of the first group of input registers are input reference source information, which are supplied with values ai m characterizing quantity b i-th kvy in the passage "a" data inputs of the first through n-th elements of the second group of input registers are input reference source information, which are supplied with the values of m bj that characterize the quantity of j-th letter in the passage "b", information inputs from first to fourth input registers are reference inputs initial information, which are supplied respectively Ν a value representative of the total number of letters "a" passage Ν b value representative of the total number of letters in the passage "b», n value representative Included quantity GUT letters in the alphabet, the value ΔP ∂, which characterizes the permissible value of the average difference between the probability of appearance of i-th letter "a" passage, and the probability of occurrence j-th letter in the passage "b", the outputs of the first through n-th, elements of the first and the second group of input registers are connected to the inputs of the dividend of each corresponding element, respectively, of the first and second groups of division blocks, the inputs of the divider of which are connected to the outputs of the first and second input registers, respectively, and the outputs, respectively, to the outputs of the decremented and input I will give a subtractable group of subtraction blocks modulo, the outputs of which are connected to the inputs, from the first to the nth, of the accumulative adder, the output of which is connected to the input of the divisible division unit, the input of which divider is connected to the output of the third input register, and the output to the information input of the block comparison, the threshold input of which is connected to the output of the fourth input register, and the output to the input of the display unit.
RU2014115194/08A 2014-04-16 2014-04-16 Device for semantic analysis of text data RU2568272C2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2014115194/08A RU2568272C2 (en) 2014-04-16 2014-04-16 Device for semantic analysis of text data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2014115194/08A RU2568272C2 (en) 2014-04-16 2014-04-16 Device for semantic analysis of text data

Publications (2)

Publication Number Publication Date
RU2014115194A RU2014115194A (en) 2015-10-27
RU2568272C2 true RU2568272C2 (en) 2015-11-20

Family

ID=54362549

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2014115194/08A RU2568272C2 (en) 2014-04-16 2014-04-16 Device for semantic analysis of text data

Country Status (1)

Country Link
RU (1) RU2568272C2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2618945C1 (en) * 2015-12-07 2017-05-11 Федеральное государственное бюджетное учреждение науки Институт проблем управления им. В.А. Трапезникова Российской академии наук Device for identification of scientific construction types

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU62263U1 (en) * 2006-12-13 2007-03-27 Михаил Григорьевич Крейнес SYSTEM OF FORMATION OF SEMANTIC DATA FOR SEARCH AND ANALYSIS OF TEXT DOCUMENTS
RU2333613C1 (en) * 2007-02-08 2008-09-10 Наталья Кирилловна Кастальская-Бороздина Method of artwork verification with view to authorship

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU62263U1 (en) * 2006-12-13 2007-03-27 Михаил Григорьевич Крейнес SYSTEM OF FORMATION OF SEMANTIC DATA FOR SEARCH AND ANALYSIS OF TEXT DOCUMENTS
RU2333613C1 (en) * 2007-02-08 2008-09-10 Наталья Кирилловна Кастальская-Бороздина Method of artwork verification with view to authorship

Also Published As

Publication number Publication date
RU2014115194A (en) 2015-10-27

Similar Documents

Publication Publication Date Title
Kholodkevich et al. Real time biomonitoring of surface water toxicity level at water supply stations
Hirshorn et al. Decoding and disrupting left midfusiform gyrus activity during word reading
Kellermann et al. Plasticity for desiccation tolerance across Drosophila species is affected by phylogeny and climate in complex ways
Damas-Moreira et al. Learning from others: an invasive lizard uses social information from both conspecifics and heterospecifics
Walsh et al. Noise affects resource assessment in an invertebrate
Kirk In dogs we trust? Intersubjectivity, response‐able relations, and the making of mine detector dogs
Scyphers et al. Venting and reef fish survival: perceptions and participation rates among recreational anglers in the northern Gulf of Mexico
Whitehead et al. Adaptation of sperm whales to open-boat whalers: rapid social learning on a large scale?
RU2568272C2 (en) Device for semantic analysis of text data
Murray Redoubled empiricism: the place of social form and formal causality in Marxian theory
Xu et al. A stochastic model of bacterial infection associated with neutrophils
Olsson et al. Key technical components for air pistol shooting performance
Shweder et al. Long-Sought Research Deregulation Is Upon Us. Don’t Squander the Moment.”
Shen et al. Effects of food deprivation duration on the behavior and metabolism of black rockfish (Sebastes schlegelii)
Edele Take (No) Prisoners! The Red Army and German POWs, 1941–1943
Dupeyron et al. Quantifying the Neural and Behavioral Correlates of Repeated Social Competition in the Fighting Fish Betta splendens
Nissan Identification and doing without it, III: Authoritative opinions, purposeful action, relabeled goods, and forensic examinations. The case of the stuffed birds: Its narrative dynamics set in formulae
Grist et al. Macroscopic examination of multiple-shot cattle heads—An animal welfare due diligence tool for abattoirs using penetrating captive bolt devices?
Jarynowski et al. Biological mis (dis)-information in the Internet as a possible Kremlin warfare
Schulman Carl Schmitt and the clash of civilizations: the missing context
Gordillo Leon et al. Detecting emotion faces in a Posner’s spatial cueing task: The adaptive value of surprise
Mackenzie et al. One Health and Zoonoses
Soumya REEXAMINING FALSIFICATION
Mohseni Tabrizi A model for measuring the relationship between religiosity and political culture
Kuznetsov et al. From pragmatic knowledge to scientific theories: Part II