RU2795667C1 - User internet traffic analysis system for user classification coefficient assignment to user device - Google Patents

User internet traffic analysis system for user classification coefficient assignment to user device Download PDF

Info

Publication number
RU2795667C1
RU2795667C1 RU2022127066A RU2022127066A RU2795667C1 RU 2795667 C1 RU2795667 C1 RU 2795667C1 RU 2022127066 A RU2022127066 A RU 2022127066A RU 2022127066 A RU2022127066 A RU 2022127066A RU 2795667 C1 RU2795667 C1 RU 2795667C1
Authority
RU
Russia
Prior art keywords
user
computing device
coefficient
internet
user computing
Prior art date
Application number
RU2022127066A
Other languages
Russian (ru)
Inventor
Павел Сергеевич Большаков
Original Assignee
Павел Сергеевич Большаков
Filing date
Publication date
Application filed by Павел Сергеевич Большаков filed Critical Павел Сергеевич Большаков
Application granted granted Critical
Publication of RU2795667C1 publication Critical patent/RU2795667C1/en

Links

Images

Abstract

FIELD: computing technology.
SUBSTANCE: user's Internet traffic analysis system for assigning a user classification coefficient to the user device is comprised of a server configured to establish an Internet connection with the user's computing device to analyse the hardware of the user's computing device and assign the user's computing device a coefficient of the user's computing device hardware; establish an Internet connection with the user's computing device to analyse the parameters of the Internet connection, assigning to the user's computing device an Internet connection coefficient of the user's computing device; establish an Internet connection with the user's computing device to analyse the user's behaviour in the Internet session, assigning the user's computing device a user behavioural coefficient; calculate and assign a user classification coefficient to the user device.
EFFECT: increase of accuracy of user classification.
6 cl, 1 dwg

Description

Область техники:Technical field:

[0001] Изобретение относится к области вычислительной техники, в частности, к системе мониторинга Интернет-трафика пользователя для присвоения пользовательскому устройству коэффициента классификации пользователя. [0001] The invention relates to the field of computer technology, in particular, to a user's Internet traffic monitoring system for assigning a user classification coefficient to a user device.

Уровень техники:State of the art:

[0002] В настоящее время существует множество систем мониторинга Интернет-трафика. Одним из примеров таких решений является способ для мониторинга интернет-трафика третьими лицами, описанная в заявке на патент US 2009/0019148 A1. Известное решение раскрывает способ мониторинга интернет-трафика, который включает в себя анализ провайдером сетевых услуг HTTP-транзакции с участием клиента интернет-пользователя. Поставщик сетевых услуг отвечает на транзакцию HTTP, пересылая клиенту интернет-пользователя промежуточную веб-страницу, содержащую средство мониторинга. После пересылки промежуточной веб-страницы клиенту интернет-пользователя поставщик сетевых услуг пересылает веб-контент, изначально связанный с транзакцией HTTP, клиенту интернет-пользователя.[0002] Currently, there are many systems for monitoring Internet traffic. One example of such solutions is a method for monitoring Internet traffic by third parties, as described in patent application US 2009/0019148 A1. The known solution discloses a method for monitoring Internet traffic, which includes an analysis by a network service provider of an HTTP transaction involving an Internet user's client. The network service provider responds to the HTTP transaction by sending an intermediate web page containing the monitoring tool to the Internet user's client. After forwarding the intermediate web page to the Internet user's client, the network service provider forwards the web content originally associated with the HTTP transaction to the Internet user's client.

[0003] Однако известному решению присущи недостатки. Недостаток известного решения заключается в том, что оно имеет низкую точность классификации пользователя для дальнейшего предоставления ему рекламного контента. Данный недостаток обусловлен тем, что известное решение при классификации не предусматривает присвоение коэффициента классификации пользовательского устройства, а также не анализирует аппаратные средства вычислительного устройства пользователя, не учитывает параметры интернет соединения для предоставления медиа контента, а также не анализирует поведение пользователя в целом.[0003] However, the known solution has disadvantages. The disadvantage of the known solution is that it has a low accuracy of user classification for further provision of advertising content to him. This disadvantage is due to the fact that the well-known classification solution does not provide for assigning a classification coefficient to the user device, and also does not analyze the hardware of the user's computing device, does not take into account the Internet connection parameters for providing media content, and does not analyze the user's behavior as a whole.

Раскрытие изобретения:Disclosure of the invention:

[0004] Задачей изобретения является устранение указанных выше недостатков.[0004] The objective of the invention is to eliminate the above disadvantages.

[0005] Техническим результатом при этом является повышение точности классификации пользователя посредством расчета коэффициента классификации пользователя для его дальнейшего присвоения пользовательскому устройству.[0005] The technical result is to increase the accuracy of user classification by calculating the user classification coefficient for its further assignment to the user device.

[0006] Для достижения технического результата предложена система анализа Интернет-трафика пользователя для присвоения пользовательскому устройству коэффициента классификации пользователя, содержащая сервер, выполненный с возможностью: установки интернет соединения, по меньшей мере, с одним вычислительным устройством пользователя для анализа аппаратных средств вычислительного устройства пользователя с присвоением вычислительному устройству пользователя коэффициента аппаратных средств вычислительного устройства пользователя (коэффициент dq1), где анализ аппаратных средств включает идентификацию матрицы дисплея вычислительного устройства пользователя, идентификацию видеокарты вычислительного устройства пользователя, идентификацию оперативной памяти вычислительного устройства пользователя, идентификацию производителя вычислительного устройства пользователя и идентификацию вторичных характеристик вычислительного устройства пользователя; установки интернет соединения, по меньшей мере, с одним вычислительным устройством пользователя для анализа параметров интернет соединения с присвоением вычислительному устройству пользователя коэффициента интернет соединения вычислительного устройства пользователя (коэффициент iq1), где параметры интернет соединения включают скорость интернет соединения, тип подключения вычислительного устройства пользователя к сети Интернет, наименование интернет провайдера, характеристики DNS, наличие и тип прокси соединения, статистику активности использования данного сегмента сети; установки интернет соединения, по меньшей мере, с одним вычислительным устройством пользователя для анализа поведения пользователя в Интернет-сессии с присвоением вычислительному устройству пользователя поведенческого коэффициента пользователя (коэффициент pv1), где анализ поведения пользователя включает идентификацию интернет сайтов с наибольшей посещаемостью пользователем, идентификацию количества интернет соединений за заданный период времени с устройства пользователя, характеристики использования «горячих клавиш», характеристики скорости и полноты прочтения онлайн страницы, характеристики переключения между страницами, скорость печати; и расчета и присвоения пользовательскому устройству коэффициента классификации пользователя (коэффициент ei1), где расчет коэффициента ei1 выполняется как функция f от коэффициентов dq1, iq1, pv1: ei1= f(dq1, iq1, pv1).[0006] To achieve a technical result, a system for analyzing user Internet traffic is proposed for assigning a user classification coefficient to a user device, containing a server configured to: establish an Internet connection with at least one user computing device to analyze the hardware of the user computing device with assigning the user computing device a user computing device hardware factor (factor dq1), where the hardware analysis includes identifying the user computing device display matrix, identifying the user computing device video card, identifying the user computing device RAM, identifying the manufacturer of the user computing device, and identifying the secondary characteristics of the user computing device. user devices; establishing an Internet connection with at least one user computing device to analyze the parameters of the Internet connection with assigning to the computing device of the user the coefficient of the Internet connection of the user's computing device (coefficient iq1), where the parameters of the Internet connection include the speed of the Internet connection, the type of connection of the user's computing device to the network Internet, the name of the Internet provider, DNS characteristics, the presence and type of proxy connection, statistics on the activity of using this network segment; establishing an Internet connection with at least one user computing device to analyze user behavior in an Internet session with assigning a user behavioral coefficient (pv1 coefficient) to the user computing device, where user behavior analysis includes identification of Internet sites with the highest user traffic, identification of the amount of Internet connections for a given period of time from the user's device, characteristics of the use of "hot keys", characteristics of the speed and completeness of reading an online page, characteristics of switching between pages, printing speed; and calculating and assigning to the user device a user classification coefficient (coefficient ei1), where calculation of the coefficient ei1 is performed as a function of f from the coefficients dq1, iq1, pv1: ei1= f(dq1, iq1, pv1).

[0007] Дополнительно вторичные характеристики вычислительного устройства пользователя включают, по меньшей мере, одну из: год выпуска модели вычислительного устройства пользователя, заводские характеристики камеры, версию интернет браузера или их комбинации.[0007] Additionally, secondary characteristics of the user's computing device include at least one of: the model year of the user's computing device, camera factory specifications, Internet browser version, or combinations thereof.

[0008] Дополнительно тип подключения вычислительного устройства пользователя к сети Интернет включает, по меньшей мере, один из следующих подключений: Wi-Fi, 3G, 4G, LTE-A, или их комбинации.[0008] Additionally, the type of connection of the user's computing device to the Internet includes at least one of the following connections: Wi-Fi, 3G, 4G, LTE-A, or combinations thereof.

[0009] Дополнительно расчет расчет коэффициента ei1 как функции f от коэффициентов dq1, iq1, pv1 выполняется посредством машинного обучения с использованием, по меньшей мере, одного из следующих алгоритмов: деревья решений, GLM/GLZ, градиентный бустинг.[0009] Additionally, the calculation of the coefficient ei1 as a function of f from the coefficients dq1, iq1, pv1 is performed by machine learning using at least one of the following algorithms: decision trees, GLM/GLZ, gradient boosting.

[0010] Дополнительно сервер выполнен с возможностью установки интернет соединения, по меньшей мере, с одним вычислительным устройством пользователя для анализа программного обеспечения вычислительного устройства пользователя с присвоением вычислительному устройству пользователя коэффициента программного обеспечения вычислительного устройства пользователя (коэффициент pq1).[0010] Additionally, the server is configured to establish an Internet connection with at least one user computing device to analyze the user computing device software by assigning the user computing device software factor to the user computing device (coefficient pq1).

[0011] Дополнительно сервер выполнен с возможностью расчета и присвоения пользовательскому устройству коэффициента классификации пользователя (коэффициент ei1), где расчет коэффициента ei1 выполняется как функция f от коэффициентов dq1, iq1, pv1, pq1: ei1= f(dq1, iq1, pv1, pq1).[0011] Additionally, the server is configured to calculate and assign to the user device a user classification coefficient (coefficient ei1), where the coefficient ei1 is calculated as a function of f from the coefficients dq1, iq1, pv1, pq1: ei1= f(dq1, iq1, pv1, pq1 ).

[0012] Очевидно, что как предыдущее общее описание, так и последующее подробное описание даны лишь для примера и пояснения и не являются ограничениями данного изобретения.[0012] Obviously, both the foregoing general description and the following detailed description are for exemplary and illustrative purposes only and are not limitations of the present invention.

Краткое описание чертежей:Brief description of drawings:

[0013] Фиг. 1 – схематичное изображение системы мониторинга Интернет-трафика пользователя для присвоения пользовательскому устройству коэффициента классификации пользователя в соответствии с воплощением настоящего изобретения.[0013] FIG. 1 is a schematic representation of a user's Internet traffic monitoring system for assigning a user classification factor to a user device, in accordance with an embodiment of the present invention.

Осуществление изобретения:Implementation of the invention:

[0014] Схематическое изображение заявленной системы 100 мониторинга Интернет-трафика пользователя для присвоения пользовательскому устройству коэффициента классификации пользователя показано на фиг. 1. Система 100 содержит сервер 101 соединенный посредством сети 103 приема и передачи данных, по меньшей мере, с одним вычислительным устройством 102 пользователя.[0014] A schematic representation of the claimed system 100 for monitoring a user's Internet traffic for assigning a user classification factor to a user device is shown in FIG. 1. The system 100 includes a server 101 connected via a network 103 receiving and transmitting data, at least one computing device 102 of the user.

[0015] Вычислительное устройство 102 пользователя содержит по меньшей мере, приемопередатчик 104, матрицу 105 дисплея, видеокарту 106 и оперативную память 107.[0015] The user computing device 102 includes at least a transceiver 104, a display matrix 105, a video card 106, and RAM 107.

[0016] В контексте настоящего решения сеть 103 приема и передачи данных может являться, по меньшей мере, одной из следующих сетей: TCP/IP сетью, Интернет, Wi-Fi, GPRS, 3G, 4G, 5G, сетью на основе технологий LTE или LTE-A, спутниковой сетью передачи данных и других типов.[0016] In the context of the present solution, the data receiving and transmitting network 103 may be at least one of the following networks: a TCP / IP network, the Internet, Wi-Fi, GPRS, 3G, 4G, 5G, a network based on LTE technologies, or LTE-A, satellite data network and other types.

[0017] Сервер 101 в контексте настоящего решения выполнен с возможностью установки интернет соединения, по меньшей мере, с одним вычислительным устройством пользователя для анализа аппаратных средств вычислительного устройства пользователя с присвоением вычислительному устройству пользователя коэффициента аппаратных средств вычислительного устройства пользователя (коэффициент dq1), для анализа параметров интернет соединения с присвоением вычислительному устройству пользователя коэффициента интернет соединения вычислительного устройства пользователя (коэффициент iq1), для анализа поведения пользователя в Интернет-сессии с присвоением вычислительному устройству пользователя поведенческого коэффициента пользователя (коэффициент pv1) и расчета и присвоения пользовательскому устройству коэффициента классификации пользователя (коэффициент ei1).[0017] The server 101 in the context of the present solution is configured to establish an Internet connection with at least one user computing device to analyze the hardware of the user computing device, assigning to the user computing device a factor of the user computing device hardware (coefficient dq1), for analysis parameters of the Internet connection with the assignment to the user's computing device of the coefficient of the Internet connection of the user's computing device (coefficient iq1), to analyze the user's behavior in the Internet session with the assignment of the user's computing device of the user's behavioral coefficient (coefficient pv1) and the calculation and assignment to the user device of the user classification coefficient (coefficient ei1).

[0018] Анализ аппаратных средств включает идентификацию матрицы дисплея вычислительного устройства пользователя, идентификацию видеокарты вычислительного устройства пользователя, идентификацию оперативной памяти вычислительного устройства пользователя, идентификацию производителя вычислительного устройства пользователя и идентификацию вторичных характеристик вычислительного устройства пользователя. Альтернативно вторичные характеристики вычислительного устройства пользователя могут включать, по меньшей мере, одну из следующих характеристик: год выпуска модели вычислительного устройства пользователя, заводские характеристики камеры, версию интернет браузера или их комбинации.[0018] The hardware analysis includes identifying the display matrix of the user computing device, identifying the video card of the user computing device, identifying the main memory of the user computing device, identifying the manufacturer of the user computing device, and identifying secondary characteristics of the user computing device. Alternatively, the secondary characteristics of the user's computing device may include at least one of the following characteristics: model year of the user's computing device, camera factory specifications, Internet browser version, or combinations thereof.

[0019] Параметры интернет соединения включают скорость интернет соединения, тип подключения вычислительного устройства пользователя к сети Интернет, наименование интернет провайдера.[0019] The Internet connection parameters include the speed of the Internet connection, the type of connection of the user's computing device to the Internet, the name of the Internet provider.

[0020] Анализ поведения пользователя включает идентификацию интернет сайтов с наибольшей посещаемостью пользователем, идентификацию количества интернет соединений за заданный период времени, скорость прочтения страницы, скорость печати, характеристики использования буфера обмена данных и т.д.[0020] Analyzing user behavior includes identifying the Internet sites with the highest user traffic, identifying the number of Internet connections in a given period of time, page reading speed, printing speed, clipboard usage characteristics, and so on.

[0021] Расчет коэффициента ei1 выполняется как функция f от коэффициентов dq1, iq1, pv1: ei1= f(dq1, iq1, pv1). Альтернативно расчет коэффициента ei1 как функции f от коэффициентов dq1, iq1, pv1 может выполняться посредством машинного обучения с использованием, по меньшей мере, одного из следующих алгоритмов: деревья решений, GLM/GLZ, градиентный бустинг.[0021] The calculation of the coefficient ei1 is performed as a function of f from the coefficients dq1, iq1, pv1: ei1= f(dq1, iq1, pv1). Alternatively, the calculation of the coefficient ei1 as a function of f of the coefficients dq1, iq1, pv1 can be performed by machine learning using at least one of the following algorithms: decision trees, GLM/GLZ, gradient boosting.

[0022] Необходимо отметить, что настоящее решение обеспечивает высокую точность классификации пользователя посредством рассчитанного коэффициента классификации пользователя для дальнейшего предоставления рекламного контента или для оценки его платежеспособности. Оценка платежеспособности в дальнейшем может быть использована для предоставления пользователю банковских продуктов (денежных кредитов, ипотеки и т.д.). В контексте настоящего решения анализ параметров интернет соединения может быть использован для оценки канала пропуска данных. Оценка канала пропуска может быть использован для определения объема данных медиа контента, который может принять вычислительное устройство пользователя в целях предоставления рекламного контента. Также анализ параметров интернет соединения может быть использован для оценки уровня дохода пользователя (абоненты с высоким уровнем дохода подписаны на тарифные планы с высоким уровнем интернет соединения). В частности, для упомянутого анализа может использоваться как линейная регрессия, дерево решений, так более сложные, но в частном случае менее стабильные подходы, например, boosting trees, нейронные сети и т.д. Для анализа интернет соединения могут быть также использованы следующие параметры: плотность сети в регионе (в частности, в регионе, в котором находится вычислительное устройство пользователя), скорость Интернет-соединения (вычисляемая с использованием параметров в API браузеров), способ подключения (с использованием параметров в API браузеров или посредством уточнения по статическим словарям характеристик сегментов сети), время интернет сессии (интернет-сессии) по локальному времени пользователя, в частности время начала интернет сессии и вторичные характеристики Интернет-соединения, например, тип интернет соединения, тип точки входа в интернет (мобильный, Wi-Fi и т.д.). Каждый из приведенных выше показателей учитывается по модели наличия позитивного значения. Так, например, при получении (в частном случае, вычислении, определении) высокого значения производительности дисковой системы осуществляется добавление веса в соответствующую характеристику, а при невозможности определения - добавление не осуществляется. В частном случае присутствует два варианта или больше для определения характеристик, например, через значение в браузере или через нагрузочное тестирование.[0022] It should be noted that the present solution provides high accuracy of user classification by the calculated user classification coefficient for further provision of advertising content or for evaluating its ability to pay. The solvency assessment can later be used to provide the user with banking products (cash loans, mortgages, etc.). In the context of the present solution, the analysis of Internet connection parameters can be used to evaluate the data transmission channel. The skip channel estimate can be used to determine the amount of media content data that a user's computing device can receive in order to provide advertising content. Also, the analysis of Internet connection parameters can be used to assess the user's income level (high-income subscribers are subscribed to tariff plans with a high level of Internet connection). In particular, for the mentioned analysis, both linear regression, a decision tree, as well as more complex, but in a particular case less stable approaches, such as boosting trees, neural networks, etc., can be used. The following parameters can also be used to analyze the Internet connection: network density in the region (in particular, in the region in which the user's computing device is located), Internet connection speed (calculated using parameters in the browser API), connection method (using parameters in the browser API or by refining the characteristics of network segments using static dictionaries), the time of the Internet session (Internet session) according to the local time of the user, in particular, the start time of the Internet session and secondary characteristics of the Internet connection, for example, the type of Internet connection, the type of entry point to Internet (mobile, Wi-Fi, etc.). Each of the above indicators is taken into account under the model of having a positive value. So, for example, when obtaining (in a particular case, calculating, determining) a high value of the disk system performance, weight is added to the corresponding characteristic, and if it is impossible to determine, then the weight is not added. In a particular case, there are two or more options for defining characteristics, for example, through a value in the browser or through load testing.

[0023] Каждый из приведенных выше показателей может быть вычислен, как стандартными методами (GLM/GLZ, деревья решений и т.д.), так и более современными (нейронными сетями и негауссовскими инструментами и т.д.).[0023] Each of the above indicators can be calculated both by standard methods (GLM / GLZ, decision trees, etc.), and more modern ones (neural networks and non-Gaussian tools, etc.).

[0024] Так, например, определение предполагаемого дохода пользователя включает деление располагаемого дохода (ei) на децили ei -> ei1. Далее осуществляется вычисление устойчивых оценок (которые в частном случае являются ранговыми) для качества вычислительного устройства пользователя (dq1), от качества Интернет-соединения (iq1) и набора предикторов онлайн поведения (pv1). Для осуществления оценки ei1 как функции от dq1, iq1 и pv1, частности, ei1= f(dq1, iq1, pv1), могут быть использованы различные алгоритмы, например, деревья решений, GLM (от англ. generalized linear models), boosting trees (расширяемые деревья) и т.д. Одним из устойчивых вариантов решения является применение моделей GLM/GLZ в виде ei1=a1*dq1 + a2*iq1 + a3*py1 + a4, где коэффициенты a1-a4 получаются в результате обучения модели в рамках процесса машинного обучения.[0024] For example, determining a user's estimated income involves dividing disposable income (ei) into deciles ei -> ei1. Next, stable estimates (which in a particular case are rank estimates) are calculated for the quality of the user's computing device (dq1), the quality of the Internet connection (iq1), and a set of predictors of online behavior (pv1). To estimate ei1 as a function of dq1, iq1 and pv1, in particular, ei1= f(dq1, iq1, pv1), various algorithms can be used, for example, decision trees, GLM (generalized linear models), boosting trees ( expandable trees), etc. One sustainable solution is to use GLM/GLZ models in the form ei1=a1*dq1 + a2*iq1 + a3*py1 + a4, where the coefficients a1-a4 are obtained as a result of training the model as part of the machine learning process.

[0025] Значение плотности сети в регионе может быть вычислено как отношение числа зарегистрированных ipv4-соединений, используемых вычислительными устройствами пользователей, на тысячу жителей в регионе или путем присвоения стабильного уровня/веса для региона, которые являются стабильными во времени и в частном случае не требуют корректировок в диапазоне шести-двенадцати месяцев, поскольку количество ipv4 ограничено и миграция пользователей изменяется не более чем на один-три процента в месяц от общего населения региона (оценки по динамике миграции ipv4 адресов приведены на основе данных за три последовательных года для более чем 20+ стран). Указанный стабильный уровень/вес выбирается исходя из оценки качества инфраструктуры, которая сильно скоррелирована с локальным валовым региональным продуктом (ВРП) на душу населения, что в свою очередь коррелирует с доходами в регионе. В частном случае отслеживается история пользователя, в частности, действий пользователя, например, история заказов, брони и т.д. Если у пользователя высокий доход, то он будет останавливаться в хороших отелях с качественным интернет соединением, где качество интернет соединения зависит от стоимости оказываемой услуги.[0025] The value of the network density in the region can be calculated as the ratio of the number of registered ipv4 connections used by user computing devices per thousand inhabitants in the region or by assigning a stable level/weight to the region, which are stable over time and in the particular case do not require adjustments in the range of six to twelve months, since the number of ipv4 is limited and user migration changes by no more than one to three percent per month of the total population of the region (estimates for the dynamics of ipv4 address migration are based on data for three consecutive years for more than 20 countries). This stable level/weight is chosen based on an assessment of the quality of infrastructure, which is highly correlated with local gross regional product (GRP) per capita, which in turn correlates with income in the region. In a particular case, the user's history is tracked, in particular, the user's actions, for example, the history of orders, reservations, etc. If the user has a high income, then he will stay in good hotels with a high-quality Internet connection, where the quality of the Internet connection depends on the cost of the service provided.

[0026] Анализ аппаратных средств вычислительного устройства пользователя может быть использован для определения продуктов отдельных производителей (например, NVIDIA, AMD, INTEL т.д.), чтобы в дальнейшем предоставлять рекламный контент от этих производителей. Также анализ аппаратных средств (анализ качества вычислительного устройства пользователя, т.е. анализ его стоимости) позволяет оценить уровень дохода пользователя для дальнейшего предоставления пользователю банковских продуктов (денежных кредитов, ипотеки и т.д.). [0026] Analysis of the hardware of the user's computing device can be used to identify products from individual manufacturers (eg, NVIDIA, AMD, INTEL, etc.) in order to further provide advertising content from these manufacturers. Also, the analysis of hardware (analysis of the quality of the user's computing device, i.e., analysis of its cost) allows you to assess the level of income of the user for further provision of banking products to the user (cash loans, mortgages, etc.).

[0027] Каждый из показателей вычислительного устройства пользователя, приведенных в описании настоящего решения, может быть вычислен, как стандартными методами (GLM/GLZ, деревья решений), так и более современными (нейронными сетями и негауссовскими инструментами).[0027] Each of the indicators of the user's computing device, given in the description of this solution, can be calculated both by standard methods (GLM/GLZ, decision trees) and more modern ones (neural networks and non-Gaussian tools).

[0028] Ниже приведен пример сравнения первого показателя уровня дохода пользователя: Первое устройство (Устройство 1) - устройство Apple iPhone 12 (причем, тип, модель, характеристики вычислительного устройства могут быть вычислены по информации, содержащейся в поле «useragent» в веб-браузере) имеет разрешение 2532х 1170 пикселя и device_pixel_ratio равный трем («3»); Второе устройство (Устройство 2) - устройство HUAWEI P40 lite (тип, модель, характеристики вычислительного устройства могут быть вычислены по информации, содержащейся в поле «useragent» в веб-браузере) имеет разрешение 2310×1080 и device_pixel_ratio равный трем («3»).[0028] The following is an example of comparing the first indicator of the user's income level: The first device (Device 1) is the Apple iPhone 12 device (moreover, the type, model, characteristics of the computing device can be calculated from the information contained in the "useragent" field in the web browser ) has a resolution of 2532x1170 pixels and a device_pixel_ratio equal to three ("3"); The second device (Device 2) is a HUAWEI P40 lite device (the type, model, characteristics of the computing device can be calculated from the information contained in the "useragent" field in the web browser) has a resolution of 2310 × 1080 and a device_pixel_ratio equal to three ("3") .

[0029] В данном случае за счет бренда (Apple дороже HUAWEI) и большего размера экрана (и ряда других характеристик), первое устройство стоит значительно дороже второго устройства.[0029] In this case, due to the brand (Apple is more expensive than HUAWEI) and the larger screen size (and a number of other characteristics), the first device costs significantly more than the second device.

[0030] Анализ поведения пользователя в Интернет-сессии обеспечивает оценку интереса пользователя для дальнейшего предоставления рекламного контента на вычислительное устройство пользователя или для оценки его платежеспособности. Например, в случае, если пользователь в Интернет-сессии выполнял поиск недвижимости, то в таком случае поведенческий коэффициент пользователя (коэффициент pv1) указывает на интерес пользователя недвижимостью для дальнейшего предоставления рекламного контента для покупки недвижимости. С другой стороны, в таком случае коэффициент pv1 оценивает уровень дохода пользователя для дальнейшего предоставления пользователю банковских продуктов (денежных кредитов, ипотеки и т.д.).[0030] An analysis of user behavior in an Internet session provides an assessment of the user's interest in further providing advertising content to the user's computing device or in order to assess his solvency. For example, if the user in the Internet session searched for real estate, then in this case, the user's behavioral coefficient (coefficient pv1) indicates the user's interest in real estate for further provision of advertising content for the purchase of real estate. On the other hand, in this case, the pv1 coefficient estimates the user's income level for further provision of banking products to the user (cash loans, mortgages, etc.).

[0031] После выполненного анализа выполняется расчет пользовательскому устройству коэффициента классификации пользователя, который включает деление коэффициента классификации пользователя (ei) на децили ei -> ei1.[0031] After the analysis is performed, the calculation of the user classification coefficient of the user device is performed, which includes dividing the user classification coefficient (ei) into deciles ei -> ei1.

[0032] Далее осуществляется вычисление устойчивых оценок (которые в частном случае являются ранговыми) для качества вычислительного устройства пользователя (dq1), от качества Интернет-соединения (iq1) и набора предикторов онлайн поведения (поведенческого коэффициента пользователя pv1). Для осуществления оценки ei1 как функции от dq1, iq1 и pv1, частности, ei1= f(dq1, iq1, pv1), могут быть использованы различные алгоритмы, например, деревья решений, GLM (от англ. generalized linear models), boosting trees (расширяемые деревья) и т.д. Одним из устойчивых вариантов решения является применение моделей GLM/GLZ в виде ei1=a1*dq1 + a2*iq1 + a3*py1 + a4, где коэффициенты a1-a4 получаются в результате обучения модели в рамках процесса машинного обучения. Машинное обучение используется в оценке, например, для построения архитектуры решения таким образом, чтобы со временем она самообучалась. В контексте настоящего решения могут использованы следующие способы машинного обучения: обучение с учителем, обучение без учителя, обучение с подкреплением, активное обучение, обучение с частичным привлечением учителя, трансдуктивное обучение, многозадачное обучение, многовариантное обучение, бустинг, байесовская сеть, и т.д.[0032] Next, stable scores (which in a particular case are rank scores) are calculated for the quality of the user's computing device (dq1), the quality of the Internet connection (iq1) and a set of predictors of online behavior (the user's behavioral coefficient pv1). To estimate ei1 as a function of dq1, iq1 and pv1, in particular, ei1= f(dq1, iq1, pv1), various algorithms can be used, for example, decision trees, GLM (generalized linear models), boosting trees ( expandable trees), etc. One sustainable solution is to use GLM/GLZ models in the form ei1=a1*dq1 + a2*iq1 + a3*py1 + a4, where the coefficients a1-a4 are obtained as a result of training the model as part of the machine learning process. Machine learning is used in evaluation, for example, to build the solution architecture in such a way that it learns on its own over time. In the context of this solution, the following machine learning methods can be used: supervised learning, unsupervised learning, reinforcement learning, active learning, partially supervised learning, transductive learning, multitasking learning, multivariate learning, boosting, Bayesian network, etc. .

[0033] Необходимо отметить, что настоящее решение анализирует онлайн данные, по которым невозможно однозначно идентифицировать пользователя. Т.е. данные, которые анализирует настоящее решение не являются следующими: Фамилия, имя, отчество; Год, месяц, дата и место рождения; Паспортные данные или данные любого другого удостоверяющего документа; E-mail, наименование аккаунта в соц. сети, в т.ч. Skype, WhatsApp, Telegram; Номер мобильного телефона; ИНН, пенсионное свидетельство, СНИЛС, свидетельство о рождении; Адрес постоянной, временной регистрации и проживания; Семейное, социальное, имущественное положение; Сведения об образовании, профессии, доходах, данные о трудоустройстве; Полные данные банковской банковской карты полный номер банковской карты, детали расчетного счета в банке; Детализированные квитанции платежей, включая маршрутные квитанции, списки заказов, заметки, покупки, комментарии; Сведения, которые характеризуют физиологические и биологические особенности человека, на основании которых можно установить его личность (биометрические персональные данные). Например, медицинская карта, данные медицинских анализов; Фотография человека; И любые другие прямые идентификаторы человека или линейные/обратимые хэш функции от этих идентификаторов. Иными словами, анализируемые онлайн данные не позволяют идентифицировать пользователя.[0033] It should be noted that the present solution analyzes online data that cannot uniquely identify a user. Those. the data analyzed by this decision are not the following: Last name, first name, patronymic; Year, month, date and place of birth; Passport data or data of any other certifying document; E-mail, name of the account in the social. networks, incl. Skype, WhatsApp, Telegram; Cell phone number; TIN, pension certificate, SNILS, birth certificate; Address of permanent, temporary registration and residence; Family, social, property status; Information about education, profession, income, employment data; Full bank card details full bank card number, bank account details; Detailed payment receipts, including itinerary receipts, order lists, notes, purchases, comments; Information that characterizes the physiological and biological characteristics of a person, on the basis of which it is possible to establish his identity (biometric personal data). For example, a medical card, data from medical tests; Photograph of a person; And any other direct person identifiers or linear/reversible hash functions from these identifiers. In other words, the data analyzed online does not allow the user to be identified.

[0034] Хотя данное изобретение было показано и описано со ссылкой на определенные варианты его осуществления, специалистам в данной области техники будет понятно, что различные изменения и модификации могут быть сделаны в нем, не покидая фактический объем изобретения. Следовательно, описанные варианты осуществления имеют намерение охватывать все подобные преобразования, модификации и разновидности, которые попадают под сущность и объем прилагаемой формулы изобретения.[0034] While the invention has been shown and described with reference to certain embodiments, those skilled in the art will appreciate that various changes and modifications can be made therein without departing from the actual scope of the invention. Therefore, the described embodiments are intended to cover all such transformations, modifications, and variations that fall within the spirit and scope of the appended claims.

Claims (10)

1. Система анализа Интернет-трафика пользователя для присвоения пользовательскому устройству коэффициента классификации пользователя, содержащая сервер, выполненный с возможностью:1. A system for analyzing user Internet traffic for assigning a user classification coefficient to a user device, comprising a server configured to: - установки интернет-соединения по меньшей мере с одним вычислительным устройством пользователя для анализа аппаратных средств вычислительного устройства пользователя с присвоением вычислительному устройству пользователя коэффициента аппаратных средств вычислительного устройства пользователя (коэффициент dq1), где анализ аппаратных средств включает идентификацию матрицы дисплея вычислительного устройства пользователя, идентификацию видеокарты вычислительного устройства пользователя, идентификацию оперативной памяти вычислительного устройства пользователя, идентификацию производителя вычислительного устройства пользователя и идентификацию вторичных характеристик вычислительного устройства пользователя;- establishing an Internet connection with at least one user computing device for analyzing the user computing device hardware with assigning the user computing device hardware coefficient to the user computing device (coefficient dq1), where the hardware analysis includes identifying the display matrix of the user computing device, identifying the video card the user computing device, identifying the user computing device RAM, identifying the manufacturer of the user computing device, and identifying secondary characteristics of the user computing device; - установки интернет-соединения по меньшей мере с одним вычислительным устройством пользователя для анализа параметров интернет-соединения с присвоением вычислительному устройству пользователя коэффициента интернет-соединения вычислительного устройства пользователя (коэффициент iq1), где параметры интернет-соединения включают скорость интернет-соединения, тип подключения вычислительного устройства пользователя к сети Интернет, наименование интернет-провайдера, характеристики DNS, наличие и тип прокси соединения, статистику активности использования данного сегмента сети;- establishing an Internet connection with at least one user computing device to analyze the Internet connection parameters with assigning to the user computing device the coefficient of the Internet connection of the user computing device (coefficient iq1), where the Internet connection parameters include the speed of the Internet connection, the type of connection of the computing the user's devices to the Internet, the name of the Internet provider, DNS characteristics, the presence and type of proxy connection, statistics on the activity of using this network segment; - установки интернет соединения по меньшей мере с одним вычислительным устройством пользователя для анализа поведения пользователя в Интернет-сессии с присвоением вычислительному устройству пользователя поведенческого коэффициента пользователя (коэффициент pv1), где анализ поведения пользователя включает идентификацию интернет-сайтов с наибольшей посещаемостью пользователем, идентификацию количества интернет-соединений за заданный период времени с устройства пользователя, характеристики использования «горячих клавиш», характеристики скорости и полноты прочтения онлайн страницы, характеристики переключения между страницами, скорость печати; и- establishing an Internet connection with at least one user computing device to analyze the user's behavior in an Internet session with assigning a user behavioral coefficient (pv1 coefficient) to the user's computing device, where the analysis of user behavior includes identifying Internet sites with the highest user traffic, identifying the amount of Internet - connections for a given period of time from the user's device, characteristics of the use of "hot keys", characteristics of the speed and completeness of reading an online page, characteristics of switching between pages, printing speed; And - расчета и присвоения пользовательскому устройству коэффициента классификации пользователя (коэффициент ei1), где расчет коэффициента ei1 выполняется как функция f от коэффициентов dq1, iq1, pv1: ei1=f(dq1, iq1, pv1).- calculating and assigning to the user device a user classification coefficient (coefficient ei1), where the calculation of the coefficient ei1 is performed as a function of f from the coefficients dq1, iq1, pv1: ei1=f(dq1, iq1, pv1). 2. Система по п. 1, отличающаяся тем, что вторичные характеристики вычислительного устройства пользователя включают по меньшей мере одну из: год выпуска модели вычислительного устройства пользователя, заводские характеристики камеры, версия интернет-браузера или их комбинации.2. The system of claim. 1, characterized in that the secondary characteristics of the user's computing device include at least one of: the year of manufacture of the model of the user's computing device, the factory characteristics of the camera, the version of the Internet browser, or combinations thereof. 3. Система по п. 1, отличающаяся тем, что тип подключения вычислительного устройства пользователя к сети Интернет включает по меньшей мере один из следующих подключений: Wi-Fi, 3G, 4G, LTE-A или их комбинации.3. The system according to claim 1, characterized in that the type of connection of the user's computing device to the Internet includes at least one of the following connections: Wi-Fi, 3G, 4G, LTE-A, or combinations thereof. 4. Система по п. 1, отличающаяся тем, что расчет коэффициента ei1 как функции f от коэффициентов dq1, iq1, pv1 выполняется посредством машинного обучения с использованием по меньшей мере одного из следующих алгоритмов: деревья решений, GLM/GLZ, градиентный бустинг.4. The system according to claim 1, characterized in that the calculation of the coefficient ei1 as a function of f from the coefficients dq1, iq1, pv1 is performed by machine learning using at least one of the following algorithms: decision trees, GLM/GLZ, gradient boosting. 5. Система по п. 1, отличающаяся тем, что сервер выполнен с дополнительной возможностью установки интернет-соединения по меньшей мере с одним вычислительным устройством пользователя для анализа программного обеспечения вычислительного устройства пользователя с присвоением вычислительному устройству пользователя коэффициента программного обеспечения вычислительного устройства пользователя (коэффициент pq1).5. The system according to claim. 1, characterized in that the server is configured to establish an Internet connection with at least one user computing device for analyzing the software of the user computing device with assigning to the user computing device a coefficient of the software of the user computing device (coefficient pq1 ). 6. Система по п. 5, отличающаяся тем, что сервер выполнен с дополнительной возможностью расчета и присвоения пользовательскому устройству коэффициента классификации пользователя (коэффициент ei1), где расчет коэффициента ei1 выполняется как функция f от коэффициентов dq1, iq1, pv1, pq1: ei1=f(dq1, iq1, pv1, pq1).6. The system according to claim 5, characterized in that the server is made with the additional ability to calculate and assign to the user device a user classification coefficient (coefficient ei1), where the calculation of the coefficient ei1 is performed as a function of f from the coefficients dq1, iq1, pv1, pq1: ei1= f(dq1, iq1, pv1, pq1).
RU2022127066A 2022-10-19 User internet traffic analysis system for user classification coefficient assignment to user device RU2795667C1 (en)

Publications (1)

Publication Number Publication Date
RU2795667C1 true RU2795667C1 (en) 2023-05-05

Family

ID=

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030101024A1 (en) * 2001-11-02 2003-05-29 Eytan Adar User profile classification by web usage analysis
US7120790B1 (en) * 2002-10-11 2006-10-10 Network General Technology Method and system for network traffic analysis with run-time behavioral enhancements
US20130046772A1 (en) * 2011-08-16 2013-02-21 Alibaba Group Holding Limited Recommending content information based on user behavior
US20160294773A1 (en) * 2015-04-03 2016-10-06 Infoblox Inc. Behavior analysis based dns tunneling detection and classification framework for network security
RU2697648C2 (en) * 2018-10-05 2019-08-15 Общество с ограниченной ответственностью "Алгоритм" Traffic classification system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030101024A1 (en) * 2001-11-02 2003-05-29 Eytan Adar User profile classification by web usage analysis
US7120790B1 (en) * 2002-10-11 2006-10-10 Network General Technology Method and system for network traffic analysis with run-time behavioral enhancements
US20130046772A1 (en) * 2011-08-16 2013-02-21 Alibaba Group Holding Limited Recommending content information based on user behavior
US20160294773A1 (en) * 2015-04-03 2016-10-06 Infoblox Inc. Behavior analysis based dns tunneling detection and classification framework for network security
RU2697648C2 (en) * 2018-10-05 2019-08-15 Общество с ограниченной ответственностью "Алгоритм" Traffic classification system

Similar Documents

Publication Publication Date Title
Fox et al. Mobile health technology adoption across generations: Narrowing the digital divide
Koksal The intentions of Lebanese consumers to adopt mobile banking
Zhao Sample representation in the social sciences
Durrant et al. Using paradata to predict best times of contact, conditioning on household and interviewer influences
Mase The impact of changes in the FTSE 100 index
Sargeant Policing and collective efficacy: The relative importance of police effectiveness, procedural justice and the obligation to obey police
US20080109314A1 (en) Method and apparatus for determining a customer's likelihood of reusing a financial account
Brown et al. Measuring remittances through surveys: Methodological and conceptual issues for survey designers and data analysts
US9767526B2 (en) Clinical trials subject identification system
EP3076348A1 (en) System and method for candidate profile screening
US20210312086A1 (en) Apparatus and method for recommending user privacy control
US20190066248A1 (en) Method and system for identifying potential fraud activity in a tax return preparation system to trigger an identity verification challenge through the tax return preparation system
Lee et al. Service source and channel choice in G2C service environments: a model comparison in the anti/counter‐terrorism domain 1
Cwynar et al. Debt literacy and debt advice-seeking behaviour among Facebook users: the role of social networks
Kahn et al. Are there social spillovers in consumers’ security assessments of payment instruments?
Binder Presidential antagonism and central bank credibility
Charron et al. What is the influence of news media on people’s perception of corruption? Parametric and non-parametric approaches
Taneja et al. Do people consume the news they trust?
Zhang et al. On the Use of Auxiliary and Paradata for Dealing With Non‐sampling Errors in Household Surveys
Ayoobkhan Factors contributing to the adoption of mobile banking in Sri Lanka: special reference to Sampath Bank in Ampara district
Qin et al. Unpacking complex mediation mechanisms and their heterogeneity between sites in a job corps evaluation
US20140180765A1 (en) Web-based survey verification
RU2795667C1 (en) User internet traffic analysis system for user classification coefficient assignment to user device
Arpetti et al. The privacy paradox: a challenge to decision theory?
Reynolds Decisions, decisions: An analysis of identity theft victims’ reporting to police, financial institutions, and credit bureaus