RU2829151C2

RU2829151C2 - Method and system for generating digital task label by machine learning algorithm

Info

Publication number: RU2829151C2
Application number: RU2022129234A
Authority: RU
Inventors: Никита Витальевич Павличенко; Борис Александрович Цейтлин; Дмитрий Алексеевич Усталов
Original assignee: Общество С Ограниченной Ответственностью "Яндекс"
Filing date: 2022-11-10
Publication date: 2024-10-24

Abstract

FIELD: physics.

SUBSTANCE: invention relates to a method and a system for generating a digital task label using a machine learning algorithm (MLA). Method is performed by a server connected to the crowdsourced digital platform and includes: at the training stage: receiving by the server a digital training task for execution on the crowdsourced digital platform; receiving, by a server, a plurality of digital training task labels corresponding to the digital training task from a plurality of client devices associated with workers, wherein said plurality of client devices is associated with a crowdsourced digital platform, in response to the digital training task sent to the plurality of client devices using the crowdsourced digital platform; receiving, by the server, a digital mark history containing the digital task marks previously received from each client device; training by the server of the MLA algorithm, which includes: input by the server of the digital training task into the MLA algorithm capable of generating a vector representation of the task corresponding to the vector representation of the digital training task; input by the server of digital labels histories into the MLA algorithm to form a vector representation of the employee with which the given client device is connected from the plurality of client devices; wherein the formation of a vector representation of an employee with which said client device is connected includes: determining for a given worker, with which a given client device is connected, a latent parameter indicating the degree of displacement of the worker in the direction of one or more latent features from the digital training task and determined by analysing the disparity matrix corresponding to the worker, with which said client device is associated; formation of a triplet of training objects containing a vector representation of a task, a vector representation of an employee, with which said client device is associated, and a digital training task label associated with a vector representation of an employee with which said client device is associated; using the training objects triplet to train the MLA algorithm to predict the digital task label for the vector representation of the digital task and the vector representation of the worker with which the client device is connected; at the stage of use: receiving a digital task by a server; determining, by the server, a vector representation of the task for the digital task; predicting, using the MLA algorithm, a plurality of digital task labels for the digital task based on a set of vector representations of workers with which the corresponding client devices are associated, and vector representation of task for digital task; server determines a digital task mark corresponding to at least one digital task mark from a plurality of digital task marks for the digital task.

EFFECT: formation of a more accurate marking of a digital task by the MLA algorithm due to preliminary training of the MLA algorithm using the generated triplet of training objects.

16 cl, 5 dwg

Description

Область техники, к которой относится изобретениеField of technology to which the invention relates

[001] Настоящая технология относится к способам и системам для формирования метки цифровой задачи, в частности, к способам и системам для формирования метки цифровой задачи для цифровой задачи в краудсорсинговой среде.[001] The present technology relates to methods and systems for generating a digital task label, in particular, to methods and systems for generating a digital task label for a digital task in a crowdsourcing environment.

Уровень техникиState of the art

[002] Для обучения алгоритмов машинного обучения (MLA, Machine Learning Algorithm) требуется большое количество размеченных данных. Краудсорсинговые платформы, такие как Amazon Mechanical Turk™ позволяют получать большие наборы данных с метками быстрее и с меньшими затратами по сравнению с ограниченным количеством экспертов.[002] Training machine learning algorithms (MLA) requires large amounts of labeled data. Crowdsourcing platforms such as Amazon Mechanical Turk™ make it possible to obtain large labeled data sets more quickly and at a lower cost than with a limited number of experts.

[003] При этом известно, что оценщики, обычно доступные на краудсорсинговых платформах, как правило не являются профессионалами и имеют различающийся уровень знаний и опыта, поэтому полученная разметка оказывается заметно зашумленней разметки, обеспечиваемой экспертами.[003] It is known that the evaluators usually available on crowdsourcing platforms are usually not professionals and have different levels of knowledge and experience, so the resulting markup turns out to be noticeably noisier than the markup provided by experts.

[004] В патентной заявке US 20200327582 A1 «Method and System for Determining Result for Task Executed in Crowd-Sourced Environment» (Yandex Europe AG, опубл. 15 октября 2020 г.) описана система для определения результата для задачи, выполняемой в краудсорсинговой среде. Способ включает в себя: получение множества результатов задачи, отправленных множеством оценщиков-людей; получение оценки качества для каждого оценщика-человека из множества оценщиков-людей; формирование множества векторных представлений, содержащего векторное представление для каждого результата; отображение множества векторных представлений в векторное пространство; объединение множества векторных представлений по меньшей мере в первый кластер и во второй кластер; выполнение алгоритма машинного обучения, способного формировать первый параметр достоверности и второй параметр достоверности; формирование объединенного векторного представления, если первый параметр достоверности или второй параметр достоверности соответствует заранее заданному условию; и выбор объединенного векторного представления в качестве результата задачи.[004] Patent application US 20200327582 A1 "Method and System for Determining Result for Task Executed in Crowd-Sourced Environment" (Yandex Europe AG, published October 15, 2020) describes a system for determining a result for a task executed in a crowdsourcing environment. The method includes: receiving a plurality of task results submitted by a plurality of human evaluators; obtaining a quality score for each human evaluator from the plurality of human evaluators; generating a plurality of vector representations comprising a vector representation for each result; mapping the plurality of vector representations to a vector space; combining the plurality of vector representations into at least a first cluster and a second cluster; executing a machine learning algorithm capable of generating a first confidence parameter and a second confidence parameter; generating a combined vector representation if the first confidence parameter or the second confidence parameter meets a predetermined condition; and selecting the combined vector representation as the task result.

[005] В патентной заявке US 20210133606 A1 «Method and System for Selecting Label from Plurality of Labels for Task in Crowd-Sourced Environment» (Yandex Europe AG, опубл. 6 мая 2021 г.) описаны способ и система для выбора метки для задачи. Способ включает в себя: получение множества меток, каждая из которых указывает на субъективное предпочтение оценщиком первого объекта второму объекту; анализ задачи сравнения для определения набора латентных смещающих признаков; выполнение алгоритма MLA, способного формировать латентный параметр оценки для первого объекта и второго объекта, при этом латентный параметр оценки указывает на вероятное смещение субъективного предпочтения оценщика относительно параметра несмещенного предпочтения первого объекта перед вторым объектом; формирование параметра прогнозируемой степени смещения для оценщика; формирование параметра несмещенного предпочтения; использование сервером параметра несмещенного предпочтения в качестве метки в задаче сравнения для оценщика.[005] Patent application US 20210133606 A1 "Method and System for Selecting Label from Plurality of Labels for Task in Crowd-Sourced Environment" (Yandex Europe AG, published May 6, 2021) describes a method and system for selecting a label for a task. The method includes: receiving a plurality of labels, each of which indicates a subjective preference of an evaluator for a first object over a second object; analyzing a comparison task to determine a set of latent biasing features; executing an MLA algorithm capable of generating a latent evaluation parameter for the first object and the second object, wherein the latent evaluation parameter indicates a probable bias of the evaluator's subjective preference relative to an unbiased preference parameter of the first object over the second object; generating a predicted degree of bias parameter for the evaluator; generating an unbiased preference parameter; using the unbiased preference parameter as a label in the comparison task for the evaluator by the server.

Раскрытие изобретенияDisclosure of invention

[006] Целью настоящего изобретения является создание усовершенствованных способа и системы для формирования метки в цифровой задаче.[006] The aim of the present invention is to provide an improved method and system for forming a mark in a digital problem.

[007] Безотносительно какой-либо конкретной теории, варианты осуществления настоящей технологии разработаны на основе предположения, что должным образом обученный алгоритм машинного обучения может правильно имитировать процесс выбора метки, выполняемый оценщиками-экспертами или оценщиками с высокими показателями качества при выборе правильных меток.[007] Without wishing to be bound by any particular theory, embodiments of the present technology are developed based on the assumption that a properly trained machine learning algorithm can correctly imitate the label selection process performed by expert evaluators or evaluators with high quality scores in selecting the correct labels.

[008] Согласно первому аспекту настоящей технологии реализован компьютерный способ формирования метки цифровой задачи алгоритмом MLA, выполняемый сервером, связанным с краудсорсинговой цифровой платформой. Способ включает в себя: на этапе обучения - получение сервером цифровой обучающей задачи для выполнения на краудсорсинговой цифровой платформе; получение сервером множества меток цифровой обучающей задачи, соответствующих цифровой обучающей задаче и отправленных множеством работников краудсорсинговой цифровой платформы, при этом цифровая обучающая метка отправлена работником в ответ на цифровую обучающую задачу с использованием краудсорсинговой цифровой платформы; получение сервером истории действий работника, связанной с каждым работником из множества работников и содержащей ранее отправленные каждым работником метки цифровой задачи; обучение сервером алгоритма MLA, включающее в себя: ввод сервером цифровой обучающей задачи в алгоритм MLA, способный формировать векторное представление задачи, соответствующее векторному представлению обучающей цифровой задачи; ввод сервером историй действий работников в алгоритм MLA, способный формировать векторное представление работника, соответствующее векторному представлению истории действий работника для работника из множества работников; формирование триплета обучающих объектов, содержащего векторное представление задачи, векторное представление работника и метку цифровой обучающей задачи, связанную с векторным представлением работника; использование триплета обучающих объектов для обучения алгоритма MLA прогнозированию метки цифровой задачи для векторного представления задачи, определяемой для цифровой задачи и векторного представления работника; на этапе использования - получение сервером цифровой задачи; определение сервером векторного представления задачи для цифровой задачи; прогнозирование с использованием алгоритма MLA множества меток цифровой задачи для цифровой задачи на основе набора векторных представлений работников и векторного представления задачи для цифровой задачи; определение сервером метки цифровой задачи, соответствующей по меньшей мере одной метке цифровой задачи из множества меток цифровой задачи для цифровой задачи.[008] According to a first aspect of the present technology, a computer method for forming a digital task label by an MLA algorithm is implemented, executed by a server associated with a crowdsourcing digital platform. The method includes: at the training stage - receiving by the server a digital training task for execution on the crowdsourcing digital platform; receiving by the server a plurality of digital training task labels corresponding to the digital training task and sent by a plurality of workers of the crowdsourcing digital platform, wherein the digital training label is sent by the worker in response to the digital training task using the crowdsourcing digital platform; receiving by the server a history of worker actions associated with each worker from the plurality of workers and containing digital task labels previously sent by each worker; training by the server of the MLA algorithm, including: inputting by the server the digital training task into the MLA algorithm, capable of forming a vector representation of the task corresponding to the vector representation of the training digital task; input by the server of the histories of worker actions into the MLA algorithm capable of forming a vector representation of the worker corresponding to the vector representation of the history of worker actions for the worker from a plurality of workers; formation of a triplet of training objects containing a vector representation of the task, a vector representation of the worker and a label of the digital training task associated with the vector representation of the worker; use of the triplet of training objects for training the MLA algorithm to predict the label of the digital task for the vector representation of the task determined for the digital task and the vector representation of the worker; at the stage of use - receiving by the server the digital task; determining by the server the vector representation of the task for the digital task; predicting, using the MLA algorithm, a plurality of digital task labels for the digital task based on the set of vector representations of the workers and the vector representation of the task for the digital task; determining by the server a digital task label corresponding to at least one digital task label from the plurality of digital task labels for the digital task.

[009] В некоторых не имеющих ограничительного характера вариантах осуществления способа определение метки цифровой задачи включает в себя выполнение мажорирования на основе множества меток цифровой задачи для цифровой задачи.[009] In some non-limiting embodiments of the method, determining a digital task label includes performing a majorization based on a plurality of digital task labels for the digital task.

[010] В некоторых не имеющих ограничительного характера вариантах осуществления способа он дополнительно включает в себя определение для каждого работника из множества работников оценки качества, соответствующей предыдущему коэффициенту успешности при предоставлении правильных меток цифровых задач, определяемому на основе истории действий работника.[010] In some non-limiting embodiments of the method, the method further includes determining for each worker of the plurality of workers a quality score corresponding to a previous success rate in providing correct digital task labels, determined based on the history of the worker's actions.

[011] В некоторых не имеющих ограничительного характера вариантах осуществления способа набор векторных представлений работников относится к подмножеству из множества работников, соответствующих заранее заданному условию.[011] In some non-limiting embodiments of the method, the set of vector representations of workers is a subset of the set of workers that meet a predetermined condition.

[012] В некоторых не имеющих ограничительного характера вариантах осуществления способа заранее заданное условие соответствует подмножеству из множества работников, содержащему одного или нескольких работников с предыдущим коэффициентом успешности, превышающим заранее заданный порог.[012] In some non-limiting embodiments of the method, the predetermined condition corresponds to a subset of the plurality of workers that includes one or more workers with a previous success rate that exceeds a predetermined threshold.

[013] В некоторых не имеющих ограничительного характера вариантах осуществления способа цифровая задача представляет собой цифровую задачу первого вида, а заранее заданное условие соответствует подмножеству из множества работников, содержащему одного или нескольких работников с предыдущим коэффициентом успешности, превышающим заранее заданный порог для цифровой задачи первого вида.[013] In some non-limiting embodiments of the method, the digital task is a digital task of the first type, and the predetermined condition corresponds to a subset of the plurality of workers containing one or more workers with a previous success rate exceeding a predetermined threshold for the digital task of the first type.

[014] В некоторых не имеющих ограничительного характера вариантах осуществления способа формирование векторного представления работника для работника включает в себя: определение для работника латентного параметра, указывающего на степень смещения работника в направлении одного или нескольких латентных признаков из цифровой обучающей задачи и определяемого путем анализа матрицы несоответствий, связанной с работником; формирование представления работника на основе латентного параметра.[014] In some non-limiting embodiments of the method, generating a vector representation of a worker for a worker includes: determining for the worker a latent parameter indicating the degree of bias of the worker in the direction of one or more latent features from a digital training task and determined by analyzing a discrepancy matrix associated with the worker; generating a representation of the worker based on the latent parameter.

[015] В некоторых не имеющих ограничительного характера вариантах осуществления способа формирование векторного представления задачи для обучающей цифровой задачи включает в себя: определение для обучающей цифровой задачи одного или нескольких латентных признаков, влияющих на выбор обучающей метки работником; формирование векторного представления задачи на основе одного или нескольких латентных признаков.[015] In some non-limiting embodiments of the method, generating a vector representation of a task for a training digital task includes: determining for the training digital task one or more latent features that influence the selection of a training label by the worker; generating a vector representation of the task based on one or more latent features.

[016] В некоторых не имеющих ограничительного характера вариантах осуществления способа один или несколько латентных признаков включают в себя по меньшей мере одно из следующего: размер шрифта, связанный с контентом обучающей цифровой задачи; размер изображения, связанный с контентом обучающей цифровой задачи; количество доступных для выбора меток, связанных с обучающей цифровой задачей; местоположение доступных для выбора меток в контенте обучающей цифровой задачи.[016] In some non-limiting embodiments of the method, one or more latent features include at least one of the following: a font size associated with the content of the educational digital task; an image size associated with the content of the educational digital task; a number of selectable labels associated with the educational digital task; a location of selectable labels in the content of the educational digital task.

[017] Согласно второму аспекту настоящей технологии реализована система для формирования метки цифровой задачи алгоритмом MLA с сервером, связанным с краудсорсинговой цифровой платформой и содержащим процессор, способный: на этапе обучения – получать цифровую обучающую задачу, подлежащую выполнению на краудсорсинговой цифровой платформе; получать множество меток цифровой обучающей задачи, соответствующих цифровой обучающей задаче и отправленных множеством работников краудсорсинговой цифровой платформы, при этом цифровая обучающая метка отправлена работником в ответ на цифровую обучающую задачу с использованием краудсорсинговой цифровой платформы; получать историю действий работника, связанную с каждым работником из множества работников и содержащую ранее отправленные каждым работником метки цифровой задачи; обучать алгоритм MLA, для чего процессор способен: вводить цифровую обучающую задачу в алгоритм MLA, способный формировать векторное представление задачи, соответствующее векторному представлению обучающей цифровой задачи; вводить истории действий работников в алгоритм MLA, способный формировать векторное представление работника, соответствующее векторному представлению истории действий работника для работника из множества работников; формировать триплет обучающих объектов, содержащий векторное представление задачи, векторное представление работника и метку цифровой обучающей задачи, связанную с векторным представлением работника; использовать триплет обучающих объектов для обучения алгоритма MLA прогнозированию метки цифровой задачи для векторного представления задачи, определяемой для цифровой задачи и векторного представления работника; на этапе использования – получать цифровую задачу; определять векторное представление задачи для цифровой задачи; прогнозировать путем выполнения алгоритма MLA множество меток цифровой задачи для цифровой задачи на основе набора векторных представлений работников и векторного представления задачи для цифровой задачи; определять метку цифровой задачи, соответствующую по меньшей мере одной метке цифровой задачи из множества меток цифровой задачи для цифровой задачи.[017] According to a second aspect of the present technology, a system is implemented for generating a digital task label using an MLA algorithm with a server associated with a crowdsourcing digital platform and containing a processor capable of: at the training stage - receiving a digital learning task to be performed on the crowdsourcing digital platform; receiving a plurality of digital learning task labels corresponding to the digital learning task and sent by a plurality of workers of the crowdsourcing digital platform, wherein the digital learning label is sent by the worker in response to the digital learning task using the crowdsourcing digital platform; receiving a history of worker actions associated with each worker from the plurality of workers and containing digital task labels previously sent by each worker; training the MLA algorithm, for which the processor is capable of: inputting the digital learning task into the MLA algorithm capable of generating a vector representation of the task corresponding to the vector representation of the digital learning task; input the worker action histories into an MLA algorithm capable of generating a vector representation of a worker corresponding to a vector representation of a worker action history for a worker from a plurality of workers; generate a triplet of training objects containing a vector representation of a task, a vector representation of a worker, and a label of a digital training task associated with the vector representation of the worker; use the triplet of training objects to train the MLA algorithm to predict a digital task label for the vector representation of a task determined for the digital task and the vector representation of the worker; at the use stage, obtain a digital task; determine a vector representation of a task for a digital task; predict, by executing the MLA algorithm, a plurality of digital task labels for the digital task based on the set of vector representations of workers and the vector representation of a task for the digital task; determine a digital task label corresponding to at least one digital task label from the plurality of digital task labels for the digital task.

[018] В некоторых не имеющих ограничительного характера вариантах осуществления системы процессор с целью определения метки цифровой задачи способен выполнять мажорирование на основе множества меток цифровой задачи для цифровой задачи.[018] In some non-limiting embodiments of the system, the processor is configured to perform majorization based on a plurality of digital task labels for the digital task for the purpose of determining a digital task label.

[019] В некоторых не имеющих ограничительного характера вариантах осуществления системы процессор дополнительно способен определять для каждого работника из множества работников соответствующую оценку качества, соответствующую предыдущему коэффициенту успешности при предоставлении правильных меток цифровых задач, определяемому на основе истории действий работника.[019] In some non-limiting embodiments of the system, the processor is further configured to determine, for each worker of the plurality of workers, a corresponding quality score corresponding to a previous success rate in providing correct digital task labels, determined based on the history of the worker's actions.

[020] В некоторых не имеющих ограничительного характера вариантах осуществления системы набор векторных представлений работников относится к подмножеству из множества работников, соответствующих заранее заданному условию.[020] In some non-limiting embodiments of the system, the set of vector representations of the workers is a subset of the set of workers that meet a predetermined condition.

[021] В некоторых не имеющих ограничительного характера вариантах осуществления системы заранее заданное условие соответствует подмножеству из множества работников, содержащему одного или нескольких работников с предыдущим коэффициентом успешности, превышающим заранее заданный порог.[021] In some non-limiting embodiments of the system, the predetermined condition corresponds to a subset of the plurality of workers that includes one or more workers with a previous success rate that exceeds a predetermined threshold.

[022] В некоторых не имеющих ограничительного характера вариантах осуществления системы цифровая задача представляет собой цифровую задачу первого вида, а заранее заданное условие соответствует подмножеству из множества работников, содержащему одного или нескольких работников с предыдущим коэффициентом успешности, превышающим заранее заданный порог для цифровой задачи первого вида.[022] In some non-limiting embodiments of the system, the digital task is a digital task of the first type, and the predetermined condition corresponds to a subset of the plurality of workers that contains one or more workers with a previous success rate that exceeds a predetermined threshold for the digital task of the first type.

[023] В некоторых не имеющих ограничительного характера вариантах осуществления системы с целью формирования векторного представления работника для работника процессор способен: определять для работника латентный параметр, указывающий на степень смещения работника в направлении одного или нескольких латентных признаков из цифровой обучающей задачи и определяемый путем анализа матрицы несоответствий, связанной с работником; формировать представление работника на основе латентного параметра.[023] In some non-limiting embodiments of the system, for the purpose of generating a vector representation of a worker for a worker, the processor is configured to: determine for the worker a latent parameter indicating the degree of bias of the worker in the direction of one or more latent features from a digital training task and determined by analyzing a discrepancy matrix associated with the worker; generate a representation of the worker based on the latent parameter.

[024] В некоторых не имеющих ограничительного характера вариантах осуществления системы с целью формирования векторного представления задачи для обучающей цифровой задачи процессор способен: определять для обучающей цифровой задачи один или несколько латентных признаков, влияющих на выбор обучающей метки работником; формировать векторное представление задачи на основе одного или нескольких латентных признаков.[024] In some non-limiting embodiments of the system, for the purpose of generating a vector representation of a task for a training digital task, the processor is capable of: determining for the training digital task one or more latent features that influence the selection of a training label by the worker; generating a vector representation of the task based on the one or more latent features.

[025] В некоторых не имеющих ограничительного характера вариантах осуществления системы один или несколько латентных признаков включают в себя по меньшей мере одно из следующего: размер шрифта, связанный с контентом обучающей цифровой задачи; размер изображения, связанный с контентом обучающей цифровой задачи; количество доступных для выбора меток, связанных с обучающей цифровой задачей; местоположение доступных для выбора меток в контенте обучающей цифровой задачи.[025] In some non-limiting embodiments of the system, one or more latent features include at least one of the following: a font size associated with the content of the educational digital task; an image size associated with the content of the educational digital task; a number of selectable labels associated with the educational digital task; a location of selectable labels in the content of the educational digital task.

[026] В контексте настоящего описания термин «сервер» означает компьютерную программу, выполняемую соответствующими аппаратными средствами и способную принимать запросы (например, от клиентских устройств) через сеть и выполнять эти запросы или инициировать их выполнение. Аппаратные средства могут представлять собой один физический компьютер или одну компьютерную систему, что не существенно для настоящей технологии. В данном контексте выражение «сервер» не означает, что каждая задача (например, принятая команда или запрос) или некоторая конкретная задача принимается, выполняется или запускается одним и тем же сервером (т.е. одними и теми же программными и/или аппаратными средствами). Это выражение означает, что любое количество программных средств или аппаратных средств может принимать, отправлять, выполнять или инициировать выполнение любой задачи или запроса либо результатов любых задач или запросов. Все эти программные и аппаратные средства могут представлять собой один сервер или несколько серверов, причем оба эти случая подразумеваются в выражении «по меньшей мере один сервер».[026] In the context of the present description, the term "server" means a computer program executed by appropriate hardware and capable of receiving requests (e.g., from client devices) via a network and executing or causing these requests to be executed. The hardware may be one physical computer or one computer system, which is not essential for the present technology. In this context, the expression "server" does not mean that every task (e.g., a received command or request) or some specific task is received, executed or started by the same server (i.e., the same software and/or hardware). This expression means that any number of software or hardware can receive, send, execute or cause to be executed any task or request or the results of any tasks or requests. All of these software and hardware may represent one server or several servers, and both of these cases are implied in the expression "at least one server".

[027] В контексте настоящего описания термин «клиентское устройство» означает любое компьютерное аппаратное средство, способное выполнять программы, подходящие для решения поставленной задачи. Таким образом, некоторые (не имеющие ограничительного характера) примеры клиентских устройств включают в себя персональные компьютеры (настольные, ноутбуки, нетбуки и т.п.), смартфоны и планшеты, а также сетевое оборудование, такое как маршрутизаторы, коммутаторы и шлюзы. Следует отметить, что в данном контексте устройство, функционирующее как клиентское устройство, также может функционировать как сервер для других клиентских устройств. Использование выражения «клиентское устройство» не исключает использования нескольких клиентских устройств для приема, отправки, выполнения или инициирования выполнения любой задачи или запроса либо результатов любых задач или запросов, либо шагов любого описанного здесь способа.[027] As used herein, the term "client device" refers to any computer hardware capable of executing programs suitable for performing a given task. Thus, some (non-limiting) examples of client devices include personal computers (desktops, laptops, netbooks, etc.), smartphones and tablets, as well as network equipment such as routers, switches and gateways. It should be noted that in this context, a device that functions as a client device may also function as a server for other client devices. The use of the term "client device" does not exclude the use of multiple client devices to receive, send, perform or initiate the execution of any task or request, or the results of any tasks or requests, or the steps of any method described herein.

[028] В контексте настоящего описания термин «база данных» означает любой структурированный набор данных, независимо от его конкретной структуры, программного обеспечения для управления базой данных или компьютерных аппаратных средств для хранения этих данных, их применения или обеспечения их использования иным способом. База данных может располагаться в тех же аппаратных средствах, где реализован процесс, обеспечивающий хранение или использование информации, хранящейся в базе данных, либо база данных может располагаться в отдельных аппаратных средствах, таких как специализированный сервер или множество серверов.[028] As used herein, the term "database" means any structured collection of data, regardless of its specific structure, database management software, or computer hardware for storing, using, or otherwise enabling the use of that data. A database may be located on the same hardware as the process that stores or uses the information stored in the database, or the database may be located on separate hardware, such as a dedicated server or multiple servers.

[029] В контексте настоящего описания выражение «информация» включает в себя информацию любого рода или вида, допускающую хранение в базе данных. Таким образом, информация включает в себя аудиовизуальные произведения (изображения, фильмы, звукозаписи, презентации и т.д.), данные (данные о местоположении, числовые данные и т.д.), текст (мнения, комментарии, вопросы, сообщения и т.д.), документы, электронные таблицы, списки слов и т.д., но не ограничивается ими.[029] In the context of the present description, the expression "information" includes information of any kind or type capable of being stored in a database. Thus, information includes, but is not limited to, audiovisual works (images, films, sound recordings, presentations, etc.), data (location data, numerical data, etc.), text (opinions, comments, questions, messages, etc.), documents, spreadsheets, word lists, etc.

[030] В контексте настоящего описания выражение «компонент» включает в себя обозначение программного обеспечения (подходящего для определенных аппаратных средств), необходимого и достаточного для выполнения определенной функции или нескольких функций.[030] In the context of the present description, the expression "component" includes the designation of software (suitable for certain hardware) necessary and sufficient to perform a certain function or several functions.

[031] В контексте настоящего описания выражение «пригодный для использования в компьютере носитель информации» означает носители любого рода и вида, включая оперативное запоминающее устройство (ОЗУ), постоянное запоминающее устройство (ПЗУ), диски (CD-ROM, DVD, гибкие диски, жесткие диски и т.д.), USB-накопители, твердотельные накопители, накопители на магнитных лентах и т.д.[031] In the context of this description, the expression "computer-usable storage medium" means media of any kind and type, including random access memory (RAM), read-only memory (ROM), disks (CD-ROM, DVD, floppy disks, hard disks, etc.), USB drives, solid state drives, magnetic tape drives, etc.

[032] В контексте настоящего описания числительные «первый», «второй», «третий» и т.д. используются лишь для указания на различие между существительными, к которым они относятся, но не для описания каких-либо определенных взаимосвязей между этими существительными. Например, должно быть понятно, что использование терминов «первый сервер» и «третий сервер» не подразумевает какого-либо определенного порядка, типа, хронологии, иерархии или классификации, в данном случае, серверов, а также что их использование (само по себе) не подразумевает наличие «второго сервера» в любой ситуации. Кроме того, как встречается в настоящем описании в другом контексте, ссылка на «первый» элемент и «второй» элемент не исключает того, что эти два элемента в действительности могут быть одним и тем же элементом. Таким образом, например, в некоторых случаях «первый» сервер и «второй» сервер могут представлять собой одно и то же программное и/или аппаратное средство, а в других случаях – разные программные и/или аппаратные средства.[032] As used herein, the numerals "first," "second," "third," etc., are used merely to distinguish between the nouns to which they refer, and not to describe any particular relationships between those nouns. For example, it should be understood that the use of the terms "first server" and "third server" does not imply any particular order, type, chronology, hierarchy, or classification of servers in this case, nor does their use (in and of itself) imply the presence of a "second server" in every situation. Furthermore, as found in other contexts herein, reference to a "first" element and a "second" element does not preclude the fact that those two elements may in fact be the same element. Thus, for example, in some cases the "first" server and the "second" server may be the same software and/or hardware, and in other cases different software and/or hardware.

[033] Каждый вариант осуществления настоящей технологии относится к по меньшей мере одной из вышеупомянутых целей и/или к одному из вышеупомянутых аспектов, но не обязательно ко всем ним. Должно быть понятно, что некоторые аспекты настоящей технологии, связанные с попыткой достижения вышеупомянутой цели, могут не соответствовать этой цели и/или могут соответствовать другим целям, явным образом здесь не упомянутым.[033] Each embodiment of the present technology relates to at least one of the above-mentioned objectives and/or to one of the above-mentioned aspects, but not necessarily to all of them. It should be understood that some aspects of the present technology associated with an attempt to achieve the above-mentioned objective may not correspond to this objective and/or may correspond to other objectives not explicitly mentioned herein.

[034] Дополнительные и/или альтернативные признаки, аспекты и преимущества вариантов осуществления настоящей технологии содержатся в дальнейшем описании, на приложенных чертежах и в формуле изобретения.[034] Additional and/or alternative features, aspects and advantages of embodiments of the present technology are contained in the following description, in the attached drawings and in the claims.

Краткое описание чертежейBrief description of the drawings

[035] Дальнейшее описание приведено для лучшего понимания настоящей технологии, а также других аспектов и их признаков, и должно использоваться совместно с приложенными чертежами.[035] The following description is provided for a better understanding of the present technology, as well as other aspects and their features, and should be used in conjunction with the attached drawings.

[036] На фиг. 1 представлена схема системы, реализованной согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии.[036] Fig. 1 shows a diagram of a system implemented according to non-limiting embodiments of the present technology.

[037] На фиг. 2 представлен снимок экрана краудсорсингового интерфейса, реализованного согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии и отображаемого на экране электронного устройства системы, представленной на фиг. 1.[037] Fig. 2 shows a screenshot of a crowdsourcing interface implemented according to non-limiting embodiments of the present technology and displayed on the screen of an electronic device of the system shown in Fig. 1.

[038] На фиг. 3 представлен пример процесса обучения алгоритма MLA, реализованного согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии.[038] Fig. 3 shows an example of the training process of the MLA algorithm implemented according to non-limiting embodiments of the present technology.

[039] На фиг. 4 представлена схема процесса определения метки для цифровой задачи в краудсорсинговой среде.[039] Fig. 4 shows a diagram of the process of determining a label for a digital task in a crowdsourcing environment.

[040] На фиг. 5 представлена блок-схема способа определения метки для цифровой задачи в краудсорсинговой среде.[040] Fig. 5 shows a block diagram of a method for determining a label for a digital task in a crowdsourcing environment.

Осуществление изобретенияImplementation of the invention

[041] На фиг. 1 представлена схема системы 100, пригодной для реализации не имеющих ограничительного характера вариантов осуществления настоящей технологии. Система 100 представляет собой пример компьютерной краудсорсинговой среды. Очевидно, что система 100 приведена лишь для иллюстрации варианта реализации настоящей технологии. Таким образом, дальнейшее описание системы представляет собой описание примеров, иллюстрирующих настоящую технологию. Это описание не предназначено для определения объема или границ настоящей технологии. В некоторых случаях приводятся полезные примеры модификаций системы 100. Они способствуют пониманию, но также не определяют объема или границ настоящей технологии. Эти модификации не составляют исчерпывающего перечня. Как должно быть понятно специалисту в данной области техники, вероятно, возможны и другие модификации. Кроме того, если в некоторых случаях модификации не описаны (т.е. примеры модификаций отсутствуют), это не означает, что они невозможны и/или что это описание содержит единственно возможный вариант реализации того или иного элемента настоящей технологии. Специалисту в данной области техники должно быть понятно, что это может быть иначе. Кроме того, следует понимать, что система 100 в некоторых случаях может представлять собой упрощенную реализацию настоящей технологии и что такие варианты представлены для того, чтобы способствовать лучшему ее пониманию. Специалистам в данной области техники должно быть понятно, что другие варианты осуществления настоящей технологии могут быть значительно сложнее.[041] Fig. 1 shows a diagram of a system 100 suitable for implementing non-limiting embodiments of the present technology. System 100 is an example of a computer crowdsourcing environment. It is obvious that system 100 is given only to illustrate an embodiment of the present technology. Thus, the following description of the system is a description of examples illustrating the present technology. This description is not intended to define the scope or boundaries of the present technology. In some cases, useful examples of modifications to system 100 are given. They facilitate understanding, but also do not define the scope or boundaries of the present technology. These modifications do not constitute an exhaustive list. As will be understood by a person skilled in the art, other modifications are probably possible. Moreover, if in some cases modifications are not described (i.e., examples of modifications are missing), this does not mean that they are impossible and/or that this description contains the only possible embodiment of a particular element of the present technology. A person skilled in the art will understand that this may be otherwise. It should also be understood that the system 100 may in some cases represent a simplified implementation of the present technology and that such embodiments are presented to facilitate a better understanding thereof. Those skilled in the art will appreciate that other embodiments of the present technology may be significantly more complex.

[042] Представленные здесь примеры и условный язык предназначены для обеспечения лучшего понимания принципов настоящей технологии, а не для ограничения ее объема до таких специально приведенных примеров и условий. Очевидно, что специалисты в данной области техники способны разработать различные способы и устройства, которые явно не описаны и не показаны, но реализуют принципы настоящей технологии в пределах ее существа и объема. Чтобы способствовать лучшему пониманию, последующее описание может содержать упрощенные варианты реализации настоящей технологии. Специалисту в данной области техники должно быть понятно, что другие варианты осуществления данной технологии могут быть значительно сложнее.[042] The examples and conventional language provided herein are intended to provide a better understanding of the principles of the present technology, and not to limit its scope to such specifically provided examples and conditions. It is obvious that those skilled in the art are able to devise various methods and devices that are not explicitly described or shown, but implement the principles of the present technology within its spirit and scope. To facilitate a better understanding, the following description may contain simplified embodiments of the present technology. One skilled in the art will understand that other embodiments of the present technology may be significantly more complex.

[043] Описание принципов, аспектов и вариантов реализации настоящей технологии, а также их конкретные примеры предназначены для охвата их структурных и функциональных эквивалентов, независимо от того, известны они в настоящее время или будут разработаны в будущем. Например, специалистам в данной области техники должно быть понятно, что любые описанные здесь структурные схемы соответствуют концептуальным представлениям иллюстративных принципиальных схем, реализующих основы настоящей технологии. Также должно быть понятно, что любые блок-схемы, схемы процессов, диаграммы изменения состояния, псевдокоды и т.п. соответствуют различным процессам, которые могут быть представлены на машиночитаемом физическом носителе информации и могут выполняться компьютером или процессором, независимо от того, показан такой компьютер или процессор явно или нет.[043] The description of the principles, aspects and embodiments of the present technology, as well as specific examples thereof, are intended to cover their structural and functional equivalents, regardless of whether they are currently known or will be developed in the future. For example, those skilled in the art should understand that any block diagrams described herein correspond to conceptual representations of illustrative circuit diagrams implementing the principles of the present technology. It should also be understood that any block diagrams, process diagrams, state transition diagrams, pseudocodes, etc. correspond to various processes that can be represented on a machine-readable physical storage medium and can be executed by a computer or processor, regardless of whether such a computer or processor is explicitly shown or not.

[044] Функции различных элементов, показанных на чертежах, включая любой функциональный блок, обозначенный как «процессор», могут быть реализованы с использованием специализированных аппаратных средств, а также аппаратных средств, способных выполнять соответствующее программное обеспечение. Если используется процессор, эти функции могут выполняться одним выделенным процессором, одним совместно используемым процессором и/или множеством отдельных процессоров, некоторые из которых могут использоваться совместно. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии процессор может представлять собой процессор общего назначения, такой как центральный процессор (CPU), или специализированный процессор, такой как графический процессор (GPU). Кроме того, явное использование термина «процессор» или «контроллер» не должно трактоваться как указание исключительно на аппаратные средства, способные выполнять программное обеспечение, и может подразумевать, помимо прочего, аппаратные средства цифрового сигнального процессора (DSP), сетевой процессор, специализированную интегральную схему (ASIC), программируемую вентильную матрицу (FPGA), ПЗУ для хранения программного обеспечения, ОЗУ и/или энергонезависимое запоминающее устройство. Также могут подразумеваться другие аппаратные средства, общего назначения и/или заказные.[044] The functions of the various elements shown in the drawings, including any functional unit designated as a "processor", may be implemented using dedicated hardware as well as hardware capable of executing associated software. If a processor is used, these functions may be performed by a single dedicated processor, a single shared processor, and/or a plurality of separate processors, some of which may be shared. In some non-limiting embodiments of the present technology, the processor may be a general-purpose processor, such as a central processing unit (CPU), or a dedicated processor, such as a graphics processing unit (GPU). Furthermore, the explicit use of the term "processor" or "controller" should not be construed as referring solely to hardware capable of executing software, and may include, but are not limited to, hardware of a digital signal processor (DSP), a network processor, an application-specific integrated circuit (ASIC), a field-programmable gate array (FPGA), a ROM for storing software, RAM, and/or a non-volatile memory. Other hardware, general purpose and/or custom, may also be included.

[045] Далее с учетом вышеизложенных принципов рассмотрены некоторые не имеющие ограничительного характера примеры, иллюстрирующие различные варианты реализации аспектов настоящей технологии.[045] Next, taking into account the above principles, some non-limiting examples are considered, illustrating various options for implementing aspects of the present technology.

[046] Система 100 содержит сервер 102 и базу 104 данных, доступную серверу 102.[046] System 100 comprises server 102 and database 104 accessible to server 102.

[047] Как схематически показано на фиг. 1, база 104 данных содержит указания на идентификаторы множества оценщиков-людей 106, указавших на свою готовность выполнить краудсорсинговую цифровую задачу по меньшей мере одного вида и/или выполнивших по меньшей мере одну краудсорсинговую цифровую задачу в прошлом и/или зарегистрированных для выполнения краудсорсинговой цифровой задачи по меньшей мере одного вида.[047] As shown schematically in Fig. 1, the database 104 contains indications of identifiers of a plurality of human evaluators 106 who have indicated their willingness to perform a crowdsourced digital task of at least one type and/or who have performed at least one crowdsourced digital task in the past and/or who are registered to perform a crowdsourced digital task of at least one type.

[048] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии база 104 данных управляется и/или администрируется поставщиком краудсорсинговых услуг, таким как компания ООО «Яндекс» (ул. Льва Толстого, д. 16, Москва, 119021, Россия). В других не имеющих ограничительного характера вариантах осуществления настоящей технологии база 104 данных может управляться другой организацией.[048] In some non-limiting embodiments of the present technology, the database 104 is managed and/or administered by a crowdsourcing service provider, such as Yandex LLC (16 Leo Tolstoy St., Moscow, 119021, Russia). In other non-limiting embodiments of the present technology, the database 104 may be managed by another organization.

[049] На реализацию базы 104 данных не накладывается каких-либо особых ограничений. База 104 данных может быть реализована с использованием любой подходящей известной технологии, обеспечивающей описанные здесь функции. Согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии, база 104 данных содержит интерфейс связи (не показан) для двухсторонней связи с сетью 110 связи (или имеет доступ к нему).[049] There are no particular limitations on the implementation of the database 104. The database 104 may be implemented using any suitable known technology that provides the functions described herein. According to non-limiting embodiments of the present technology, the database 104 comprises a communication interface (not shown) for two-way communication with (or has access to) the communication network 110.

[050] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии в качестве сети 110 связи может использоваться сеть Интернет. В других не имеющих ограничительного характера вариантах осуществления настоящей технологии сеть 110 связи может быть реализована иначе, например, в виде любой глобальной сети связи, локальной сети связи, частной сети связи и т.п.[050] In some non-limiting embodiments of the present technology, the Internet may be used as the communication network 110. In other non-limiting embodiments of the present technology, the communication network 110 may be implemented differently, such as any global communication network, local communication network, private communication network, etc.

[051] Предполагается, что база 104 данных может по меньшей мере частично храниться на сервере 102 и/или по меньшей мере частично управляться сервером 102. Согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии, база 104 данных содержит информацию, связанную с идентификаторами по меньшей мере некоторых оценщиков-людей 106 из множества оценщиков-людей 106 и достаточную для того, чтобы обратившийся к базе 104 данных элемент, такой как сервер 102, мог назначить и отправить одну или несколько цифровых задач для выполнения одним или несколькими оценщиками-людьми 106.[051] It is contemplated that the database 104 may be at least partially stored on the server 102 and/or at least partially controlled by the server 102. According to non-limiting embodiments of the present technology, the database 104 contains information associated with identifiers of at least some of the human evaluators 106 of the plurality of human evaluators 106 and sufficient for an element accessing the database 104, such as the server 102, to assign and send one or more digital tasks for execution by one or more of the human evaluators 106.

[052] В любой момент времени множество оценщиков-людей 106 может содержать различное количество оценщиков-людей 106, например, 50 оценщиков-людей, доступных для выполнения цифровых задач. Множество оценщиков-людей 106 может содержать большее или меньшее количество оценщиков-людей 106.[052] At any given time, the plurality of human evaluators 106 may contain a varying number of human evaluators 106, such as 50 human evaluators, available to perform digital tasks. The plurality of human evaluators 106 may contain a greater or lesser number of human evaluators 106.

[053] Сервер 102 может быть реализован в виде традиционного компьютерного сервера. В не имеющем ограничительного характера примере осуществления настоящей технологии сервер 102 может быть реализован в виде сервера Dell™ PowerEdge™, работающего под управлением операционной системы Microsoft™ Windows Server™. Очевидно, что сервер 102 может быть реализован с использованием любых других подходящих аппаратных средств и/или прикладного программного обеспечения и/или встроенного программного обеспечения либо их сочетания. В представленном не имеющем ограничительного характера варианте осуществления настоящей технологии сервер 102 реализован в виде одного сервера. В других не имеющих ограничительного характера вариантах осуществления настоящей технологии функции сервера 102 могут быть распределены между несколькими серверами.[053] The server 102 may be implemented as a conventional computer server. In a non-limiting example of implementing the present technology, the server 102 may be implemented as a Dell™ PowerEdge™ server running a Microsoft™ Windows Server™ operating system. It is obvious that the server 102 may be implemented using any other suitable hardware and/or application software and/or firmware or a combination thereof. In the presented non-limiting embodiment of the present technology, the server 102 is implemented as a single server. In other non-limiting embodiments of the present technology, the functions of the server 102 may be distributed among multiple servers.

[054] Сервер 102 содержит интерфейс связи (не показан) для обеспечения двухсторонней связи с сетью 110 связи по линии 108 связи.[054] Server 102 comprises a communication interface (not shown) for providing two-way communication with communication network 110 via communication line 108.

[055] На реализацию линии 108 связи не накладывается каких-либо особых ограничений, она зависит от реализации сервера 102. Например, линия 108 связи может быть реализована в виде беспроводной линии связи (такой как канал сети связи 3G, канал сети связи 4G, Wireless Fidelity или сокращенно WiFi^®, Bluetooth^® и т.п.) или проводной линии связи (такой как соединение на основе Ethernet).[055] There are no particular limitations on the implementation of the communication line 108, it depends on the implementation of the server 102. For example, the communication line 108 can be implemented as a wireless communication line (such as a 3G communication network channel, a 4G communication network channel, Wireless Fidelity or abbreviated WiFi ^® , Bluetooth ^® , etc.) or a wired communication line (such as an Ethernet-based connection).

[056] Должно быть понятно, что варианты реализации сервера 102, линии 108 связи и сети 110 связи приведены лишь для иллюстрации. Специалисту в данной области техники должны быть понятными и другие конкретные детали реализации сервера 102, линии 108 связи и сети 110 связи. Представленные выше примеры никак не ограничивают объем настоящей технологии.[056] It should be understood that the embodiments of the server 102, the communication line 108 and the communication network 110 are given for illustrative purposes only. Other specific details of the implementation of the server 102, the communication line 108 and the communication network 110 should be clear to a person skilled in the art. The examples presented above do not limit the scope of the present technology in any way.

[057] Сервер 102 содержит память 114 сервера, содержащую один или несколько носителей информации и в общем случае хранящую компьютерные программные команды, выполняемые процессором 116 сервера. Например, память 114 сервера может быть реализована в виде машиночитаемого физического носителя информации, включая ПЗУ и/или ОЗУ. Память 114 сервера также может включать в себя одно или несколько устройств постоянного хранения, таких как жесткие диски (HDD), твердотельные накопители (SSD) и карты флэш-памяти.[057] The server 102 comprises a server memory 114 comprising one or more storage media and generally storing computer program instructions executed by the server processor 116. For example, the server memory 114 may be implemented as a computer-readable physical storage medium, including ROM and/or RAM. The server memory 114 may also include one or more persistent storage devices, such as hard disk drives (HDDs), solid state drives (SSDs), and flash memory cards.

[058] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 102 может эксплуатироваться организацией, управляющей базой 104 данных. В других не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 102 может эксплуатироваться организацией, отличной от той, что управляет базой 104 данных.[058] In some non-limiting embodiments of the present technology, the server 102 may be operated by an organization that manages the database 104. In other non-limiting embodiments of the present technology, the server 102 may be operated by an organization other than the one that manages the database 104.

[059] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 102 способен выполнять краудсорсинговое приложение 118. Например, краудсорсинговое приложение 118 может быть реализовано в виде краудсорсинговой платформы, такой как Toloka™ либо другой проприетарной или коммерчески доступной краудсорсинговой платформы.[059] In some non-limiting embodiments of the present technology, the server 102 is capable of executing the crowdsourcing application 118. For example, the crowdsourcing application 118 may be implemented as a crowdsourcing platform such as Toloka™ or another proprietary or commercially available crowdsourcing platform.

[060] С этой целью сервер 102 связан с базой 121 данных цифровых задач. В других не имеющих ограничительного характера вариантах осуществления изобретения база 121 данных цифровых задач может быть связана с сервером 102 через сеть 110 связи. Несмотря на то, что база 121 данных цифровых задач схематично показана здесь в виде одного элемента, предполагается, что база 121 данных цифровых задач может быть распределенной.[060] For this purpose, the server 102 is connected to a digital task database 121. In other non-limiting embodiments of the invention, the digital task database 121 may be connected to the server 102 via the communication network 110. Although the digital task database 121 is schematically shown here as a single element, it is contemplated that the digital task database 121 may be distributed.

[061] В базе 121 данных цифровых задач хранится указание на множество цифровых задач (отдельно не обозначено), каждая из которых соответствует задаче для человеческого интеллекта (HIT, Human Intelligence Task), далее также называемой просто задачей (отдельно не обозначена).[061] The database 121 of digital tasks stores an indication of a plurality of digital tasks (not separately designated), each of which corresponds to a task for human intelligence (HIT, Human Intelligence Task), hereinafter also referred to simply as a task (not separately designated).

[062] На наполнение базы 121 данных цифровых задач множеством цифровых задач не накладывается каких-либо ограничений. В общем случае, один или несколько составителей запросов на выполнение цифровых задач (не показаны) могут отправить одну или несколько цифровых задач для сохранения в базе 121 данных цифровых задач. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии один или несколько составителей запросов на выполнение цифровых задач могут указать вид оценщиков, для которых предназначена цифровая задача, и/или бюджет, выделяемый каждому оценщику-человеку 106, предоставившему результат.[062] There are no restrictions on how the digital task database 121 can be populated with a plurality of digital tasks. In general, one or more digital task requesters (not shown) can submit one or more digital tasks to be stored in the digital task database 121. In some non-limiting embodiments of the present technology, one or more digital task requesters can specify the type of evaluators for which the digital task is intended and/or the budget allocated to each human evaluator 106 who provides a result.

[063] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии база данных цифровых задач дополнительно способна хранить набор признаков задачи (не показаны), связанных с каждой цифровой задачей, хранящейся в базе 121 данных цифровых задач. Например, набор зависящих от задачи признаков для цифровой задачи может, в числе прочего, содержать один или несколько идентификаторов задачи и один или несколько латентных признаков, связанных с цифровой задачей. В контексте настоящего описания выражение «латентный признак» может соответствовать любому связанному с цифровой задачей признаку, который вследствие необъективности оценщика-человека 106 может влиять в ту или иную сторону на решение оценщика-человека 106 при выполнении цифровой задачи, но не связан с качеством выбранных вариантов, предоставленных в этой цифровой задаче (т.е. в поставленной цифровой задаче оценивания). Иными словами, латентные признаки цифровой задачи не имеют (или не должны иметь) прямой корреляции с меткой, назначенной для одного из двух вариантов выбора в цифровой задаче, но, тем не менее, могут влиять на оценщиков-людей 106 при выполнении ими цифровой задачи (что более подробно описано ниже).[063] In some non-limiting embodiments of the present technology, the digital task database is further configured to store a set of task features (not shown) associated with each digital task stored in the digital task database 121. For example, the set of task-dependent features for a digital task may, among other things, comprise one or more task identifiers and one or more latent features associated with the digital task. As used herein, the term "latent feature" may correspond to any feature associated with a digital task that, due to the bias of the human evaluator 106, may influence in one direction or another the decision of the human evaluator 106 in performing a digital task, but is not associated with the quality of the selected options provided in this digital task (i.e., in the given digital assessment task). In other words, the latent features of the digital task do not (or should not) have a direct correlation with the label assigned to one of the two choice options in the digital task, but may nonetheless influence human raters 106 when they perform the digital task (as described in more detail below).

[064] На формирование набора латентных признаков не накладывается каких-либо ограничений. Например, набор латентных признаков может формироваться оператором краудсорсингового приложения 118 или автоматически путем использования алгоритма машинного обучения в ответ на направление цифровой задачи составителем запроса краудсорсинговому приложению 118.[064] There are no restrictions on the formation of the set of latent features. For example, the set of latent features may be formed by the operator of the crowdsourcing application 118 or automatically by using a machine learning algorithm in response to the submission of a digital task by the requestor to the crowdsourcing application 118.

[065] На реализацию цифровой задачи не накладывается каких-либо ограничений. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии база 121 данных цифровых задач содержит цифровые задачи аннотирования (также известные как цифровые задачи классификации).[065] There are no restrictions on the implementation of the digital task. In some non-restrictive embodiments of the present technology, the digital task database 121 comprises digital annotation tasks (also known as digital classification tasks).

[066] Цифровая задача классификации соответствует цифровой задаче, в которой оценщику-человеку 106 предлагается выбрать вариант с использованием метки из первой категории и/или второй категории. На фиг. 2 представлен снимок экрана краудсорсингового интерфейса 200, реализованного согласно не имеющему ограничительного характера варианту осуществления настоящей технологии (представлен пример интерфейса 200, отображаемого на экране одного из электронных устройств 120). Интерфейс 200 иллюстрирует цифровую задачу 208 классификации изображений.[066] The digital classification task corresponds to a digital task in which a human evaluator 106 is asked to select an option using a label from a first category and/or a second category. Fig. 2 shows a screenshot of a crowdsourcing interface 200 implemented according to a non-limiting embodiment of the present technology (an example of an interface 200 displayed on a screen of one of the electronic devices 120 is shown). The interface 200 illustrates a digital image classification task 208.

[067] Интерфейс 200 содержит инструкцию 202 для оценщиков-людей 106 и объект (т.е. изображение 204). Для ясности следует отметить, что текст (и, в частности, каждая буква) в интерфейсе 200 представлен символами «Х». Тем не менее фактически текст состоит из слов на некотором языке (например, на английском языке). В частности, инструкция 202 может содержать указания оценщикам-людям 106 выбрать правильный вариант классификации животного, представленного на изображении 204. Интерфейс содержит первую метку 210, связанную со словом «кошка», и вторую метку 212, связанную со словом «собака». Очевидно, что также возможны задачи классификации других видов, такие как классификация документов, текстов и т.п. Кроме того, должно быть понятно, что лишь две метки (т.е. первая метка 210 и вторая метка 212) доступны для выбора в цифровой задаче 208 исключительно для удобства объяснения. Предполагается, что в качестве доступных для выбора вариантов может быть представлено больше двух меток.[067] The interface 200 comprises an instruction 202 for human raters 106 and an object (i.e., an image 204). For clarity, it should be noted that the text (and, in particular, each letter) in the interface 200 is represented by the symbols "X". However, the text actually consists of words in some language (e.g., English). In particular, the instruction 202 may comprise instructions to the human raters 106 to select the correct classification option for the animal represented in the image 204. The interface comprises a first label 210 associated with the word "cat" and a second label 212 associated with the word "dog". Obviously, other types of classification tasks are also possible, such as classification of documents, texts, etc. In addition, it should be understood that only two labels (i.e., the first label 210 and the second label 212) are available for selection in the digital task 208 solely for the convenience of explanation. It is assumed that more than two labels may be presented as options to select from.

[068] Набор латентных признаков может, среди прочего, содержать визуальные и/или текстовые признаки, связанные с цифровой задачей. Например, в цифровой задаче 208 набор латентных признаков может, среди прочего, содержать по меньшей мере одно из следующего:[068] The set of latent features may, among other things, contain visual and/or textual features associated with the digital task. For example, in the digital task 208, the set of latent features may, among other things, contain at least one of the following:

- размер шрифта, связанный с инструкцией 202 или с другим текстовым контентом интерфейса 200;- the font size associated with the instruction 202 or with other text content of the interface 200;

- вид цифровой задачи, связанный с цифровой задачей 208 (например, категоризация, перевод, оценивание релевантности и т.п.);- a type of digital task related to digital task 208 (e.g. categorization, translation, relevance assessment, etc.);

- сложность, присущая цифровой задаче 208 согласно оценке оператора, связанного с краудсорсинговым приложением 118;- the complexity inherent in the digital task 208 as assessed by the operator associated with the crowdsourcing application 118;

- демографические данные оценщика-человека 106;- demographic data of the human evaluator 106;

- целеустремленность оценщика-человека 106, прочитавшего инструкцию 202, основанная на времени ответа для выполнения цифровой задачи 208;- the determination of a human evaluator 106 who has read the instruction 202, based on the response time for completing the digital task 208;

- размер изображения 204;- image size 204;

- количество доступных для выбора меток в цифровой задаче 208 и их соответствующие местоположения.- the number of selectable marks in digital problem 208 and their corresponding locations.

[069] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии база 121 данных цифровых задач также содержит цифровые задачи, не являющиеся цифровыми задачами классификации. Например, не связанная с классификацией цифровая задача может содержать цифровые задачи попарного сравнения. Попарное сравнение соответствует цифровой задаче, в которой оценщикам-людям 106 предлагается выполнить ранжирование одного или нескольких объектов (таких как страницы результатов поисковой системы (SERP, Search Engine Result Page), переводы и т.д.). В таком случае набор латентных признаков может, среди прочего, дополнительно содержать:[069] In some non-limiting embodiments of the present technology, the digital task database 121 also comprises digital tasks that are not digital classification tasks. For example, a non-classification digital task may comprise pairwise comparison digital tasks. A pairwise comparison corresponds to a digital task in which human raters 106 are asked to rank one or more objects (such as search engine result pages (SERPs), translations, etc.). In such a case, the set of latent features may, among other things, further comprise:

- морфологические, синтаксические и семантические взаимосвязи между лексемами, содержащимися в текстах не связанной с классификацией цифровой задачи, и/или- morphological, syntactic and semantic relationships between lexemes contained in texts not related to the classification of a digital task, and/or

- совпадения слов или фраз, содержащихся в текстах не связанной с классификацией цифровой задачи, и/или- coincidences of words or phrases contained in texts not related to the classification of the digital task, and/or

- контекст слов и словесные выражения в составе фраз, содержащихся в не связанной с классификацией цифровой задаче.- the context of words and verbal expressions within phrases contained in a non-classification digital task.

[070] Согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии, краудсорсинговое приложение 118 способно назначать цифровую задачу для по меньшей мере подмножества из множества оценщиков-людей 106, указавших на свою доступность в базе 104 данных (см. фиг. 1).[070] According to non-limiting embodiments of the present technology, the crowdsourcing application 118 is capable of assigning a digital task to at least a subset of the plurality of human evaluators 106 who have indicated their availability in the database 104 (see FIG. 1).

[071] Сервер 102 способен осуществлять связь с различными элементами через сеть 110 связи. Примеры различных элементов включают в себя базу 104 данных, соответствующие электронные устройства 120 оценщиков-людей 106 и другие устройства, которые могут быть подключены к сети 110 связи. Соответственно, краудсорсинговое приложение 118 способно получать цифровую задачу из базы 121 данных цифровых задач и отправлять цифровую задачу соответствующему электронному устройству 120, используемому множеством оценщиков-людей 106 для выполнения задачи, например, через сеть 110 связи.[071] The server 102 is capable of communicating with various elements via the communication network 110. Examples of various elements include the database 104, the corresponding electronic devices 120 of the human evaluators 106, and other devices that can be connected to the communication network 110. Accordingly, the crowdsourcing application 118 is capable of receiving a digital task from the database 121 of digital tasks and sending the digital task to the corresponding electronic device 120 used by the plurality of human evaluators 106 to perform the task, for example, via the communication network 110.

[072] Предполагается, что для этой цели может быть использована любая подходящая технология и/или среда передачи файлов. Также предполагается, что цифровая задача может быть отправлена множеству оценщиков-людей 106 с использованием любого другого подходящего способа, например, путем обеспечения удаленного доступа к цифровой задаче для множества оценщиков-людей 106.[072] It is contemplated that any suitable file transfer technology and/or medium may be used for this purpose. It is also contemplated that the digital task may be sent to the plurality of human evaluators 106 using any other suitable method, such as by providing remote access to the digital task for the plurality of human evaluators 106.

[073] Согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии, сервер 102 способен получать набор результатов цифровой задачи (в виде меток), выполненной множеством оценщиков-людей 106. Согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии, набор результатов может быть получен сервером 102 в одном или нескольких пакетах 122 данных, например, через сеть 110 связи. Предполагается, что могут использоваться любые другие подходящие средства передачи данных.[073] According to non-limiting embodiments of the present technology, the server 102 is capable of receiving a set of results of a digital task (in the form of labels) performed by a plurality of human evaluators 106. According to non-limiting embodiments of the present technology, the set of results may be received by the server 102 in one or more data packets 122, such as via the communication network 110. It is contemplated that any other suitable means of data transmission may be used.

[074] В общем случае краудсорсинговое приложение 118 способно объединять набор результатов с целью определения «истинной» метки для рассматриваемой цифровой задачи. Например, в ответ на цифровую задачу 208 краудсорсинговое приложение 118 может получить с использованием пакетов 122 данных 200 необработанных (т.е. необъединенных) меток, каждая из которых выбрана соответствующим оценщиком-человеком 106. В общем случае краудсорсинговое приложение 118 способно выполнять один или несколько способов объединения с целью получения истинной метки из противоречивых выбранных меток. Самая основная модель агрегирования, известная в данной области техники, представляет собой мажорирование, при котором наиболее часто встречающаяся метка для цифровой задачи 208 считается истинной меткой.[074] In general, the crowdsourcing application 118 is capable of aggregating a set of results in order to determine a "true" label for the digital task at hand. For example, in response to the digital task 208, the crowdsourcing application 118 may obtain 200 raw (i.e., unaggregated) labels using the data packets 122, each of which was selected by a corresponding human evaluator 106. In general, the crowdsourcing application 118 is capable of performing one or more aggregation methods in order to obtain a true label from the conflicting selected labels. The most basic aggregation model known in the art is majorization, in which the most frequently occurring label for the digital task 208 is considered the true label.

[075] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 102 также связан с базой 124 данных журналов с использованием линии связи (не обозначена), которая может представлять собой выделенную линию связи и т.п. В других не имеющих ограничительного характера вариантах осуществления настоящей технологии база 124 данных журналов может быть связана с сервером 102 с использованием сети 110 связи без выхода за границы настоящей технологии. Несмотря на то, что база 124 данных журналов схематично показана здесь в виде одного элемента, предполагается, что база 124 данных журналов может быть распределенной.[075] In some non-limiting embodiments of the present technology, the server 102 is also connected to the log database 124 using a communication line (not indicated), which may be a dedicated communication line, etc. In other non-limiting embodiments of the present technology, the log database 124 may be connected to the server 102 using a communication network 110 without going beyond the scope of the present technology. Although the log database 124 is schematically shown here as a single element, it is contemplated that the log database 124 may be distributed.

[076] База 124 данных журналов способна собирать и хранить информацию, связанную с оценщиками-людьми 106 и с цифровыми задачами, выполненными оценщиками-людьми 106.[076] The log database 124 is capable of collecting and storing information related to the human evaluators 106 and to the digital tasks performed by the human evaluators 106.

[077] Например, в базе 124 данных журналов могут храниться истории действий работников, содержащие параметры и характеристики взаимодействия оценщиков-людей 106 с краудсорсинговым приложением 118. В частности, каждая история действий работника связана с конкретным оценщиком-человеком 106. История действий работника может, среди прочего, содержать:[077] For example, the database 124 of logs may store worker action histories containing parameters and characteristics of the interaction of human evaluators 106 with the crowdsourcing application 118. In particular, each worker action history is associated with a specific human evaluator 106. The worker action history may contain, among other things:

- время регистрации оценщика-человека 106 в краудсорсинговом приложении 118;- the time of registration of the human evaluator 106 in the crowdsourcing application 118;

- количество цифровых задач, выполненных оценщиком-человеком 106 с момента регистрации, и значения времени их выполнения;- the number of digital tasks completed by a human evaluator 106 since registration and the time of their completion;

- количество выполняемых задач в час;- the number of tasks performed per hour;

- виды цифровых задач, выполненных оценщиком-человеком 106 с момента регистрации;- types of digital tasks performed by the human evaluator 106 since registration;

- идентификаторы цифровых задач, выполненных оценщиком-человеком 106 с момента регистрации, и соответствующие выбранные метки;- identifiers of digital tasks performed by the human evaluator 106 since registration and the corresponding selected labels;

- оценка качества или коэффициент успешности оценщика-человека 106, соответствующий надежности результата цифровой задачи, выполненной оценщиком-человеком 106, или, иными словами, коэффициент ошибок оценщика-человека.- the quality assessment or success rate of a human evaluator 106, corresponding to the reliability of the result of a digital task performed by a human evaluator 106, or, in other words, the error rate of the human evaluator.

[078] На способ определения оценки качества оценщика-человека 106 не накладывается каких-либо ограничений. Например, оценка качества может быть определена на основе первого множества «задач-ловушек», выполненных оценщиком-человеком 106. Здесь термин «задача-ловушка» означает цифровую задачу, правильный результат которой известен до ее отправки для выполнения оценщику-человеку 106, который тестируется или оценивается с целью определения связанной с ним оценки качества, при этом правильный результат не известен оцениваемому оценщику-человеку 106.[078] There are no restrictions on the method for determining the quality score of the human evaluator 106. For example, the quality score may be determined based on a first set of "trap tasks" performed by the human evaluator 106. Here, the term "trap task" means a digital task whose correct result is known before it is sent for execution to the human evaluator 106, which is tested or evaluated for the purpose of determining the associated quality score, while the correct result is not known to the human evaluator 106 being evaluated.

[079] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии оценка качества также может определяться (в дополнение к «задачам-ловушкам» или без них) на основе анализа меток, ранее выбранных оценщиком-человеком 106 и определенных как истинные метки для соответствующей цифровой задачи краудсорсинговым приложением 118. Должно быть понятно, что оценка качества может соответствовать общей оценке качества, учитывающей все ранее выполненные цифровые задачи, а также может содержать зависящую от вида оценку качества, учитывающую только ранее выполненные цифровые задачи конкретного вида.[079] In some non-limiting embodiments of the present technology, the quality score may also be determined (in addition to or without the "trap tasks") based on an analysis of labels previously selected by the human evaluator 106 and determined to be true labels for the corresponding digital task by the crowdsourcing application 118. It should be understood that the quality score may correspond to a general quality score that takes into account all previously completed digital tasks, and may also include a type-specific quality score that takes into account only previously completed digital tasks of a particular type.

[080] Несмотря на то, что система 100 описана со ссылкой на различные элементы аппаратных средств (такие как база 104 данных, сервер 102, база 124 данных журналов, база 121 данных цифровых задач и т.д.), изображенные по отдельности, должно быть понятно, что это сделано для лучшего понимания. Предполагается, что различные функции, выполняемые этими элементами, могут выполняться одним элементом или могут быть распределены между различными элементами.[080] Although the system 100 is described with reference to various hardware elements (such as the database 104, the server 102, the log database 124, the digital task database 121, etc.) shown separately, it should be understood that this is done for the sake of clarity. It is contemplated that the various functions performed by these elements may be performed by a single element or may be distributed among different elements.

[081] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии краудсорсинговое приложение 118 способно выполнять алгоритм 126 MLA. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии алгоритм 126 MLA обучен выполнению цифровой задачи (такой как цифровая задача 208) без задействования оценщиков-людей 106 (более подробно описано ниже). Например, в случае цифровой задачи 208 алгоритм 126 MLA способен выбирать метку (например, первую метку 210 и/или вторую метку 212) в ответ на получение цифровой задачи 208.[081] In some non-limiting embodiments of the present technology, the crowdsourcing application 118 is capable of executing the MLA algorithm 126. In some non-limiting embodiments of the present technology, the MLA algorithm 126 is trained to perform a digital task (such as the digital task 208) without the involvement of human evaluators 106 (described in more detail below). For example, in the case of the digital task 208, the MLA algorithm 126 is capable of selecting a label (e.g., the first label 210 and/or the second label 212) in response to receiving the digital task 208.

Алгоритм 126 MLA – этап обучения Algorithm 126 MLA – training stage

[082] На фиг. 3 представлена схема процесса обучения алгоритма 126 MLA.[082] Fig. 3 shows a diagram of the training process of the 126 MLA algorithm.

[083] Для лучшего понимания основополагающих концепций настоящей технологии следует понимать, что обучение алгоритма 126 MLA можно разделить на первый этап и второй этап. На первом этапе формируются обучающие входные данные (описаны ниже). На втором этапе алгоритм 126 MLA обучается с использованием обучающих входных данных. Несмотря на то, что шаги обучения алгоритма 126 MLA описаны как выполняемые процессором 116, объем изобретения этим не ограничивается. Должно быть понятно, что обучать и/или выполнять алгоритм 126 MLA может сервер 102 и/или другой сервер, связанный с сервером 102.[083] To better understand the underlying concepts of the present technology, it should be understood that the training of the MLA algorithm 126 can be divided into a first stage and a second stage. In the first stage, training input data (described below) is generated. In the second stage, the MLA algorithm 126 is trained using the training input data. Although the steps of training the MLA algorithm 126 are described as being performed by the processor 116, the scope of the invention is not limited thereto. It should be understood that the server 102 and/or another server associated with the server 102 can train and/or execute the MLA algorithm 126.

[084] Ниже приведено описание формирования обучающих входных данных, которое начинается с базы 121 данных цифровых задач. Как указано выше, база 121 данных цифровых задач содержит множество цифровых задач. Дальнейшее описание этапа обучения приведено со ссылкой на одну или несколько обучающих цифровых задач, хранящихся в базе 121 данных цифровых задач. Должно быть понятно, что эти обучающие цифровые задачи могут не отличаться от цифровых задач, описанных выше со ссылкой на фиг. 2. Иными словами, обучающие цифровые задачи могут храниться в базе 121 данных цифровых задач подобно тому, как это описано выше.[084] The following is a description of the formation of training input data, which begins with the digital task database 121. As indicated above, the digital task database 121 contains a plurality of digital tasks. The training step is further described with reference to one or more training digital tasks stored in the digital task database 121. It should be understood that these training digital tasks may not differ from the digital tasks described above with reference to Fig. 2. In other words, the training digital tasks may be stored in the digital task database 121 in a similar manner as described above.

[085] Для иллюстрации можно предположить, что база 121 данных цифровых задач содержит обучающую цифровую задачу 302, которую краудсорсинговое приложение 118 отправляет набору оценщиков-людей 106, содержащему первого оценщика-человека 304, второго оценщика-человека 306 и третьего оценщика-человека 308. Очевидным образом предполагается, что обучающая цифровая задача 302 может быть отправлена больше или меньше чем трем оценщикам-людям.[085] For illustration purposes, it may be assumed that the digital task database 121 contains a training digital task 302 that the crowdsourcing application 118 sends to a set of human raters 106 comprising a first human rater 304, a second human rater 306, and a third human rater 308. It is obviously contemplated that the training digital task 302 may be sent to more or less than three human raters.

[086] В ответ на получение обучающей цифровой задачи 302 каждый оценщик из числа первого оценщика-человека 304, второго оценщика-человека 306 и третьего оценщика-человека 308 выполняет обучающую цифровую задачу 302 путем выбора метки. Например, алгоритм 126 MLA способен получать набор 310 ответов, содержащий первую обучающую метку 312, назначенную первым оценщиком-человеком 304, вторую обучающую метку 314, назначенную вторым оценщиком-человеком 306, и третью обучающую метку 316, назначенную третьим оценщиком-человеком 308. Следует отметить, что алгоритм 126 MLA способен получать набор 310 ответов, содержащий необработанные (т.е. необъединенные) первую обучающую метку 312, вторую обучающую метку 314 и третью обучающую метку 316.[086] In response to receiving the training digital task 302, each evaluator of the first human evaluator 304, the second human evaluator 306, and the third human evaluator 308 performs the training digital task 302 by selecting a label. For example, the MLA algorithm 126 is capable of receiving a set of responses 310 that includes a first training label 312 assigned by the first human evaluator 304, a second training label 314 assigned by the second human evaluator 306, and a third training label 316 assigned by the third human evaluator 308. It should be noted that the MLA algorithm 126 is capable of receiving a set of responses 310 that includes unprocessed (i.e., unmerged) first training label 312, second training label 314, and third training label 316.

[087] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии обучающая цифровая задача 302 дополнительно вводится в алгоритм 126 MLA для формирования векторного представления 318 обучающей цифровой задачи 302. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии алгоритм 126 MLA способен определять или получать из базы 121 данных цифровых задач один или несколько латентных признаков, связанных с обучающей цифровой задачей 302, и формировать векторное представление 318 задачи на основе одного или нескольких латентных признаков, связанных с обучающей цифровой задачей 302. На формирование векторного представления 318 задачи на основе одного или нескольких латентных признаков, связанных с обучающей цифровой задачей 302, не накладывается каких-либо ограничений. Этот процесс может, в числе прочего, включать в себя использование алгоритма на основе долгой краткосрочной памяти (LSTM, Long Short-Term Memory), алгоритма на основе представлений двунаправленного кодера из трансформеров (BERT, Bidirectional Encoder Representations from Transformers), алгоритма на основе сверточной нейронной сети (CNN, Convolutional Neural Network) и т.п.[087] In some non-limiting embodiments of the present technology, the training digital task 302 is further input into the MLA algorithm 126 to generate a vector representation 318 of the training digital task 302. In some non-limiting embodiments of the present technology, the MLA algorithm 126 is configured to determine or obtain from the digital task database 121 one or more latent features associated with the training digital task 302 and generate a vector representation 318 of the task based on the one or more latent features associated with the training digital task 302. There are no restrictions on generating the vector representation 318 of the task based on the one or more latent features associated with the training digital task 302. This process may include, among other things, the use of an algorithm based on Long Short-Term Memory (LSTM), an algorithm based on Bidirectional Encoder Representations from Transformers (BERT), an algorithm based on a Convolutional Neural Network (CNN), etc.

[088] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии алгоритм 126 MLA дополнительно способен получать из базы 124 данных журналов историю действий работника для каждого оценщика-человека из набора оценщиков-людей 106. Затем алгоритм 126 MLA способен формировать набор 320 векторных представлений работников, содержащий первое векторное представление 322 работника, связанное с первым оценщиком-человеком 304, второе векторное представление 324 работника, связанное со вторым оценщиком-человеком 306, и третье векторное представление 326 работника, связанное с третьим оценщиком-человеком 308. На формирование набора 320 векторных представлений работников не накладывается каких-либо ограничений. Этот процесс может, в числе прочего, включать в себя использование алгоритма на основе памяти LSTM, алгоритма на основе представлений BERT, алгоритма на основе сети CNN и т.п.[088] In some non-limiting embodiments of the present technology, the MLA algorithm 126 is further configured to obtain from the log database 124 a history of worker actions for each human rater in the set of human raters 106. The MLA algorithm 126 is then configured to generate a set 320 of worker vector representations comprising a first worker vector representation 322 associated with the first human rater 304, a second worker vector representation 324 associated with the second human rater 306, and a third worker vector representation 326 associated with the third human rater 308. No limitations are imposed on the generation of the set 320 of worker vector representations. This process may include, among other things, using an LSTM memory-based algorithm, a BERT representation-based algorithm, a CNN network-based algorithm, etc.

[089] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии алгоритм 126 MLA способен определять для оценщика-человека латентный параметр, указывающий на степень смещения оценщика-человека в направлении одного или нескольких латентных признаков. На определение латентного параметра не накладывается каких-либо ограничений. С учетом того, что история действий работника содержит (а) указание на все идентификаторы ранее выполненных задач и (б) указание на идентификаторы задач, для которых метки, ранее выбранные связанным оценщиком-человеком 106, были определенны как являющиеся истинными метками для соответствующей цифровой задачи, алгоритм 126 MLA способен определять латентный параметр путем анализа матрицы несоответствий оценщика-человека с использованием в некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии способа на основе слоев адаптации обычного шума (CoNAL, Common Noise Adaptation Layers). В частности, алгоритм 126 MLA способен определять для оценщика-человека латентный параметр путем анализа влияния одного или нескольких наборов латентных признаков на ответ оценщика-человека 106. Очевидно, что возможны и другие средства определения латентного параметра, такие как использование модели Дэвида-Скина (Dawid-Skene), порождающей модели отметок, возможностей и сложностей (GLAD, Generative model of Labels, Abilities, and Difficulties) и модели уменьшенной средней подпоследовательности матрицы (M-MSR, Matrix-Mean-Subsequence-Reduced). В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии алгоритм 126 MLA способен формировать набор 320 векторных представлений работников на основе одного или нескольких латентных признаков первого оценщика-человека 304, второго оценщика-человека 306 и третьего оценщика-человека 308.[089] In some non-limiting embodiments of the present technology, the MLA algorithm 126 is configured to determine a latent parameter for the human rater that is indicative of the degree of bias of the human rater in the direction of one or more latent features. There are no limitations on the determination of the latent parameter. Given that the worker's action history contains (a) an indication of all identifiers of previously completed tasks and (b) an indication of identifiers of tasks for which labels previously selected by the associated human rater 106 were determined to be true labels for the corresponding digital task, the MLA algorithm 126 is configured to determine the latent parameter by analyzing a confusion matrix of the human rater using, in some non-limiting embodiments of the present technology, a method based on common noise adaptation layers (CoNAL). In particular, the MLA algorithm 126 is capable of determining a latent parameter for a human rater by analyzing the influence of one or more sets of latent features on the response of the human rater 106. Obviously, other means of determining the latent parameter are also possible, such as using the David-Skene model, the Generative model of Labels, Abilities, and Difficulties (GLAD) and the Matrix-Mean-Subsequence-Reduced (M-MSR) model. In some non-limiting embodiments of the present technology, the MLA algorithm 126 is capable of forming a set 320 of vector representations of workers based on one or more latent features of the first human rater 304, the second human rater 306 and the third human rater 308.

[090] На формирование набора 320 векторных представлений работников не накладывается каких-либо ограничений. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии векторное представление работника (такое как первое векторное представление 322 работника) формируется в виде случайного вектора (не показан) случайной длины. На этапе обучения первый случайный вектор подвергается конкатенации с предыдущим векторным представлением задачи, связанным с ранее выполненной работником цифровой задачей, в результате чего формируется «склеенный» вектор. Затем используется способ обратного распространения, чтобы улучшить первый случайный вектор и предыдущее векторное представление задачи, при этом обратное распространение выполняется на основе метки, выбранной работником для ранее выполненной цифровой задачи.[090] There are no restrictions on the formation of the set 320 of vector representations of workers. In some non-limiting embodiments of the present technology, a vector representation of a worker (such as a first vector representation 322 of the worker) is formed as a random vector (not shown) of random length. In a training step, the first random vector is concatenated with a previous vector representation of a task associated with a digital task previously completed by the worker, resulting in a "glued" vector. A backpropagation method is then used to improve the first random vector and the previous vector representation of the task, wherein the backpropagation is performed based on a label selected by the worker for a previously completed digital task.

[091] Очевидно, что несмотря на то, что только одна обучающая цифровая задача (т.е. обучающая цифровая задача 302) и три оценщика-человека (т.е. первый оценщик-человек 304, второй оценщик-человек 306 и третий оценщик-человек 308) показаны здесь для лучшего понимания, предполагается, что более одной обучающей цифровой задачи может быть отправлено больше чем трем оценщикам-людям.[091] It should be appreciated that although only one training digital task (i.e., training digital task 302) and three human raters (i.e., first human rater 304, second human rater 306, and third human rater 308) are shown here for clarity, it is contemplated that more than one training digital task may be sent to more than three human raters.

[092] Набор 310 ответов, векторное представление 318 задачи и набор 320 векторных представлений работников в совокупности образуют набор 328 обучающих данных (более подробно описано ниже).[092] The set 310 responses, the task vector representation 318, and the set 320 worker vector representations collectively form the training data set 328 (described in more detail below).

[093] Ниже описано обучение алгоритма 126 MLA с использованием набора 328 обучающих данных. Набор 328 обучающих данных содержит триплеты обучающих данных, а именно: первый триплет 330 обучающих объектов, второй триплет 332 обучающих объектов и третий триплет 334 обучающих объектов. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии каждый триплет обучающих объектов связан с оценщиком-человеком и с обучающей цифровой задачей. Например, первый триплет 330 обучающих объектов связан с первым оценщиком-человеком 304 и содержит первую обучающую метку 312, векторное представление 318 задачи и первое векторное представление 322 работника.[093] The training of the MLA algorithm 126 is described below using a training data set 328. The training data set 328 comprises triplets of training data, namely: a first triplet 330 of training objects, a second triplet 332 of training objects, and a third triplet 334 of training objects. In some non-limiting embodiments of the present technology, each triplet of training objects is associated with a human evaluator and with a training digital task. For example, the first triplet 330 of training objects is associated with a first human evaluator 304 and comprises a first training label 312, a vector representation 318 of a task, and a first vector representation 322 of a worker.

[09] Набор 328 обучающих данных или, в частности, отдельные триплеты обучающих объектов вводятся в алгоритм 126 MLA. Алгоритм 126 MLA содержит логику обучения для определения набора признаков, связанных с каждым триплетом обучающих объектов (например, с первой обучающей меткой 312, с векторным представлением 318 задачи и с первым векторным представлением 322 работника). На основе набора признаков, связанных с каждым триплетом обучающих объектов, алгоритм 126 MLA способен обучаться прогнозированию метки для цифровой задачи на основе векторного представления задачи, определяемой для цифровой задачи и векторного представления работника. В частности, на этапе использования (подробно описано ниже) алгоритм 126 MLA способен формировать распределение вероятностей для выбора метки цифровой задачи оценщиком-человеком с учетом векторного представления работника для оценщика-человека и векторного представления задачи для цифровой задачи (подробно описано ниже).[09] A set of 328 training data, or in particular individual triplets of training objects, are input to an MLA algorithm 126. The MLA algorithm 126 comprises a learning logic for determining a set of features associated with each triplet of training objects (e.g., with a first training label 312, with a task vector representation 318, and with a first worker vector representation 322). Based on the set of features associated with each triplet of training objects, the MLA algorithm 126 is configured to learn to predict a label for a digital task based on a task vector representation defined for the digital task and a worker vector representation. In particular, at the use stage (described in detail below), the MLA algorithm 126 is configured to generate a probability distribution for selecting a digital task label by a human evaluator given a worker vector representation for the human evaluator and a task vector representation for the digital task (described in detail below).

[095] Несмотря на представление здесь лишь одного экземпляра процесса обучения алгоритма 126 MLA, это сделано исключительно для лучшего понимания. Очевидно, что обучение алгоритма 126 MLA выполняется итеративно с использованием множества различных триплетов обучающих объектов.[095] Although only one instance of the training process of the MLA algorithm 126 is presented here, this is done solely for the sake of clarity. It is obvious that the training of the MLA algorithm 126 is performed iteratively using many different triplets of training objects.

Алгоритм 126 MLA – этап использования Algorithm 126 MLA – Use Stage

[096] Далее, после описания обучения алгоритма 126 MLA до этапа использования, со ссылкой на фиг. 4 описана схема работы краудсорсингового приложения 118, способного выполнять алгоритм 126 MLA (см. фиг. 1). Краудсорсинговое приложение 118 выполняет процедуру 402 приема, процедуру 404 выбора и процедуру 406 объединения (или иным способом осуществляет доступ к ним).[096] Next, after describing the training of the MLA algorithm 126 prior to the use stage, a flow chart of the operation of the crowdsourcing application 118 capable of executing the MLA algorithm 126 (see Fig. 1) is described with reference to Fig. 4. The crowdsourcing application 118 executes the receiving procedure 402, the selecting procedure 404, and the combining procedure 406 (or otherwise accesses them).

[097] В контексте настоящего описания термин «процедура» подразумевает подмножество компьютерных программных команд краудсорсингового приложения 118, выполняемых процессором 116 с целью реализации описанных ниже функций, связанных с различными процедурами (с процедурой 402 приема, процедурой 404 выбора и процедурой 406 объединения). При этом должно быть однозначно понятно, что процедура 402 приема, процедура 404 выбора и процедура 406 объединения схематически показаны как отдельные элементы лишь для удобства объяснения процессов, выполняемых краудсорсинговым приложением 118. Предполагается, что некоторые или все процедуры из числа процедуры 402 приема, процедуры 404 выбора и процедуры 406 объединения могут быть реализованы в виде одной или нескольких комбинированных процедур. Кроме того, предполагается, что некоторые процедуры из числа процедуры 402 приема, процедуры 404 выбора и процедуры 406 объединения выполняются приложением (не показано), связанным с краудсорсинговым приложением 118, которое хранится на сервере 102 или в другом элементе.[097] In the context of the present description, the term "procedure" means a subset of the computer program instructions of the crowdsourcing application 118 executed by the processor 116 for the purpose of implementing the functions described below associated with various procedures (with the reception procedure 402, the selection procedure 404 and the merging procedure 406). It should be clearly understood that the reception procedure 402, the selection procedure 404 and the merging procedure 406 are schematically shown as separate elements only for the convenience of explaining the processes performed by the crowdsourcing application 118. It is contemplated that some or all of the procedures from the reception procedure 402, the selection procedure 404 and the merging procedure 406 can be implemented in the form of one or more combined procedures. In addition, it is assumed that some procedures from among the receiving procedure 402, the selecting procedure 404 and the merging procedure 406 are performed by an application (not shown) associated with the crowdsourcing application 118, which is stored on the server 102 or in another element.

[098] Для лучшего понимания настоящей технологии ниже описаны функции и обрабатываемые или сохраняемые данные и/или информация процедуры 402 приема, процедуры 404 выбора и процедуры 406 объединения.[098] For a better understanding of the present technology, the functions and the processed or stored data and/or information of the receiving procedure 402, the selecting procedure 404, and the combining procedure 406 are described below.

Процедура 402 приемаReception procedure 402

[099] Процедура 402 приема способна получать пакет 408 данных из базы 121 данных цифровых задач. Пакет данных содержит цифровую задачу, подлежащую выполнению одним или несколькими оценщиками-людьми 106. Для объяснения можно предположить, что пакет 408 данных содержит цифровую задачу 208. Очевидно, что лишь один пакет 408 данных показан исключительно для лучшего понимания. Должно быть понятно, что процедура 402 приема может получать множество пакетов данных, каждый из которых содержит цифровую задачу.[099] The receiving procedure 402 is capable of receiving a data packet 408 from the digital task database 121. The data packet contains a digital task to be performed by one or more human evaluators 106. For the sake of explanation, it may be assumed that the data packet 408 contains a digital task 208. It is obvious that only one data packet 408 is shown solely for better understanding. It should be understood that the receiving procedure 402 may receive multiple data packets, each of which contains a digital task.

[0100] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии процедура 402 приема способна анализировать набор признаков задачи для цифровой задачи 208 путем обращения к базе 121 данных цифровых задач. В частности, процедура 402 приема способна определять вид и сложность цифровой задачи 208.[0100] In some non-limiting embodiments of the present technology, the receiving procedure 402 is capable of analyzing a set of task features for the digital task 208 by accessing the digital task database 121. In particular, the receiving procedure 402 is capable of determining the type and complexity of the digital task 208.

[0101] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии процедура 402 приема дополнительно способна обращаться к базе 124 данных журналов и выбирать одну или несколько историй действий работников, соответствующих заранее заданному условию. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии заранее заданное условие соответствует выбору одной или нескольких историй действий работника с оценкой качества, превышающей заранее заданный порог. В дополнительных не имеющих ограничительного характера вариантах осуществления настоящей технологии заранее заданное условие соответствует N историям действий работника с оценкой качества, превышающей заранее заданный порог для задач, подобных по виду и по сложности цифровой задаче 208. В частности, с учетом того, что цифровая задача 208 представляет собой цифровую задачу классификации, процедура 402 приема способна выбирать одну или несколько историй действий работника с оценкой качества для цифровых задач классификации подобной сложности (подобных цифровой задаче 208), превышающей заранее заданный порог. На определение заранее заданного порога не накладывается каких-либо ограничений. Например, он может определяться администратором краудсорсингового приложения 118.[0101] In some non-limiting embodiments of the present technology, the receiving procedure 402 is further configured to access the database 124 of logs and select one or more worker action histories that meet a predetermined condition. In some non-limiting embodiments of the present technology, the predetermined condition corresponds to selecting one or more worker action histories with a quality score that exceeds a predetermined threshold. In further non-limiting embodiments of the present technology, the predetermined condition corresponds to N worker action histories with a quality score that exceeds a predetermined threshold for tasks that are similar in type and complexity to the digital task 208. In particular, given that the digital task 208 is a digital classification task, the receiving procedure 402 is configured to select one or more worker action histories with a quality score for digital classification tasks of similar complexity (similar to the digital task 208) that exceeds a predetermined threshold. There are no restrictions on determining the predetermined threshold. For example, it can be determined by an administrator of the crowdsourcing application 118.

[0102] Можно предположить, что процедура 402 приема определила три истории действий работников, соответствующие заранее заданному условию. Тогда процедура 402 приема может сформировать набор 418 векторных представлений работников, каждое из которых соответствует векторному представлению истории действий работника, соответствующей заранее заданному условию. Несмотря на то, что только три истории действий работников представлены здесь как соответствующие заранее заданному условию, это сделано исключительно для лучшего понимания. Должно быть понятно, что больше или меньше трех историй действий работника могут соответствовать заранее заданному условию.[0102] It may be assumed that the receiving procedure 402 has determined three worker action histories that meet the predetermined condition. Then, the receiving procedure 402 may generate a set 418 of vector representations of workers, each of which corresponds to a vector representation of a worker action history that meets the predetermined condition. Although only three worker action histories are represented here as meeting the predetermined condition, this is done solely for the sake of clarity. It should be understood that more or less than three worker action histories may meet the predetermined condition.

[0103] Процедура 402 приема дополнительно способна отправлять пакет 414 данных процедуре 404 выбора. Пакет 414 данных содержит цифровую задачу 208 и набор 418 векторных представлений работников.[0103] The receiving procedure 402 is further configured to send a data packet 414 to the selecting procedure 404. The data packet 414 comprises a digital task 208 and a set 418 of vector representations of workers.

Процедура 404 выбора404 Selection Procedure

[0104] В ответ на получение пакета 414 данных процедура 404 выбора способна выполнять следующие функции.[0104] In response to receiving the data packet 414, the selection procedure 404 is capable of performing the following functions.

[0105] Сначала процедура 404 выбора способна формировать векторное представление 416 задачи для цифровой задачи 208 с использованием алгоритма 126 MLA.[0105] First, the selection procedure 404 is configured to generate a vector representation 416 of the problem for the digital problem 208 using the MLA algorithm 126.

[0106] Сформировав векторное представление 416 задачи и имея набор 418 векторных представлений работников, процедура 404 выбора способна выполнять алгоритм 126 MLA, ранее обученный прогнозированию метки (т.е. первой метки 210 или второй метки 212) на основе векторного представления 416 задачи и каждого векторного представления работника из набора 418 векторных представлений работников. С учетом того, что набор 418 векторных представлений работников содержит три векторных представления работников, алгоритм 126 MLA может сформировать первый набор 420 выбранных меток (каждый отдельно выбранный алгоритмом 126 MLA результат или метка показаны в виде треугольника) и отправить набор 420 выбранных меток процедуре 406 объединения.[0106] Having generated the task vector representation 416 and having the set 418 worker vector representations, the selection procedure 404 is capable of executing the MLA algorithm 126, previously trained to predict a label (i.e., the first label 210 or the second label 212) based on the task vector representation 416 and each worker vector representation from the set 418 worker vector representations. Given that the set 418 worker vector representations contains three worker vector representations, the MLA algorithm 126 can generate a first set 420 of selected labels (each individually selected result or label by the MLA algorithm 126 is shown as a triangle) and send the set 420 of selected labels to the merging procedure 406.

Процедура 406 объединения406 Merger Procedure

[0107] Первый набор 420 выбранных меток образует суммарный набор 422 выбранных меток.[0107] The first set 420 selected labels forms a total set 422 selected labels.

[0108] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии процедура 406 объединения способна выбирать из суммарного набора 422 выбранных меток «истинную» или «правильную» метку для цифровой задачи 208. На определение такой метки не накладывается каких-либо ограничений. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии правильная метка соответствует метке с большинством голосов в результате мажорирования из суммарного набора 422 выбранных меток. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии предполагается, что «истинную» или «правильную» метку можно определять с использованием взвешенной мажоритарной системы. Реализация взвешенной мажоритарной системы известна в данной области техники и может основываться на алгоритме GLAD или на алгоритме Дэвида-Скина.[0108] In some non-limiting embodiments of the present technology, the merging procedure 406 is configured to select a "true" or "correct" label for the digital task 208 from the total set 422 selected labels. There are no restrictions on determining such a label. In some non-limiting embodiments of the present technology, the correct label corresponds to the label with the majority vote as a result of majorization from the total set 422 selected labels. In some non-limiting embodiments of the present technology, it is contemplated that the "true" or "correct" label can be determined using a weighted majority system. An implementation of a weighted majority system is known in the art and can be based on the GLAD algorithm or the David-Skeen algorithm.

[0109] Например, можно предположить, что в суммарном наборе 422 выбранных меток первая метка 210 выбрана дважды, а вторая метка 212 выбрана один раз, тогда процедура 406 объединения может выбрать первую метку 210 в качестве правильной метки для цифровой задачи 208.[0109] For example, it may be assumed that in the total set 422 of selected labels, the first label 210 is selected twice and the second label 212 is selected once, then the merging procedure 406 may select the first label 210 as the correct label for the digital task 208.

[0110] Несмотря на то, что в представленном выше описании суммарный набор 422 выбранных меток содержит только первый набор 420 выбранных меток (полученных алгоритмом 126 MLA), объем изобретения этим не ограничивается.[0110] Although in the above description the total set 422 of selected labels comprises only the first set 420 of selected labels (obtained by the MLA algorithm 126), the scope of the invention is not limited thereto.

[0111] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии предполагается, что суммарный набор 422 выбранных меток также содержит второй набор выбранных меток (не показан), полученных одним или нескольким оценщиками-людьми 106. В частности, в некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии процедура 402 приема дополнительно способна отправлять пакет 408 данных одному или нескольким оценщикам-людям 106, выбирающим одну или несколько меток, образующих второй набор меток, отправляемых процедуре 406 объединения. В этом случае суммарный набор 422 выбранных меток содержит первый набор 420 выбранных меток (полученных алгоритмом 126 MLA) и второй набор меток (полученных оценщиками-людьми 106). В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии три истории действий работников, соответствующие заранее заданному условию и выбранные процедурой 404 выбора, не связаны с одним или несколькими оценщиками-людьми 106, получившими пакет 408 данных и отправившими метку из второго набора выбранных меток. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии процедура 406 объединения дополнительно способна рассчитывать и отправлять вознаграждение оценщикам-людям 106, выбравшим правильную метку, т.е. первую метку 210.[0111] In some non-limiting embodiments of the present technology, it is contemplated that the total set 422 of selected labels also comprises a second set of selected labels (not shown) obtained by one or more human raters 106. In particular, in some non-limiting embodiments of the present technology, the receiving procedure 402 is further configured to send a data packet 408 to one or more human raters 106 that select one or more labels that form the second set of labels sent to the combining procedure 406. In this case, the total set 422 of selected labels comprises a first set 420 of selected labels (obtained by the MLA algorithm 126) and a second set of labels (obtained by the human raters 106). In some non-limiting embodiments of the present technology, the three worker action histories that meet the predetermined condition and are selected by the selection procedure 404 are not associated with one or more human raters 106 that received the data packet 408 and sent a label from the second set of selected labels. In some non-limiting embodiments of the present technology, the merging procedure 406 is further capable of calculating and sending a reward to the human raters 106 that selected the correct label, i.e., the first label 210.

[0112] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии процедура 406 объединения дополнительно способна обращаться к базе 124 данных журналов (см. фиг. 1) и обновлять оценки качества оценщиков-людей 106, отправивших второй набор выбранных меток.[0112] In some non-limiting embodiments of the present technology, the merging procedure 406 is further configured to access the log database 124 (see FIG. 1) and update the quality ratings of the human raters 106 who submitted the second set of selected labels.

[0113] Благодаря различным не имеющим ограничительного характера вариантам осуществления настоящей технологии возможен выбор метки для цифровой задачи с использованием алгоритма 126 MLA с использованием или без использования меток, полученных одним или несколькими оценщиками-людьми 106.[0113] Various non-limiting embodiments of the present technology may permit selection of a label for a digital task using the MLA algorithm 126 with or without the use of labels obtained by one or more human evaluators 106.

[0114] Описанные выше архитектура и примеры позволяют выполнять компьютерный способ формирования метки цифровой задачи алгоритмом машинного обучения на краудсорсинговой цифровой платформе. На фиг. 5 представлена блок-схема способа 500, выполняемого согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии. Способ 500 может выполняться сервером 102 или другим элементом (таким как сервер), связанным с сервером 102.[0114] The architecture and examples described above allow for a computer method of generating a digital task label by a machine learning algorithm on a crowdsourcing digital platform to be performed. Fig. 5 shows a flow chart of a method 500 performed according to non-limiting embodiments of the present technology. The method 500 may be performed by the server 102 or another element (such as a server) associated with the server 102.

[0115] Шаг 502: получение сервером цифровой обучающей задачи для выполнения на краудсорсинговой цифровой платформе.[0115] Step 502: receiving by the server a digital learning task for execution on the crowdsourcing digital platform.

[0116] Способ 500 начинается с шага 502, на котором обучающая цифровая задача 302 отправляется краудсорсинговым приложением 118 набору оценщиков-людей 106.[0116] The method 500 begins with step 502, in which the training digital task 302 is sent by the crowdsourcing application 118 to a set of human evaluators 106.

[0117] Шаг 504: получение сервером множества меток цифровой обучающей задачи, соответствующих цифровой обучающей задаче и отправленных множеством работников краудсорсинговой цифровой платформы, при этом цифровая обучающая метка отправлена работником в ответ на цифровую обучающую задачу с использованием краудсорсинговой цифровой платформы.[0117] Step 504: receiving by the server a plurality of digital learning task labels corresponding to the digital learning task and sent by a plurality of workers of the crowdsourcing digital platform, wherein the digital learning label is sent by the worker in response to the digital learning task using the crowdsourcing digital platform.

[0118] На шаге 504 в ответ на получение обучающей цифровой задачи 302 каждый оценщик из числа первого оценщика-человека 304, второго оценщика-человека 306 и третьего оценщика-человека 308 выполняет обучающую цифровую задачу 302 путем выбора метки. Например, алгоритм 126 MLA способен получать набор 310 ответов, содержащий первую обучающую метку 312, назначенную первым оценщиком-человеком 304, вторую обучающую метку 314, назначенную вторым оценщиком-человеком 306, и третью обучающую метку 316, назначенную третьим оценщиком-человеком 308. Следует отметить, что алгоритм 126 MLA способен получать набор 310 ответов, содержащий необработанные (т.е. необъединенные) первую обучающую метку 312, вторую обучающую метку 314 и третью обучающую метку 316.[0118] In step 504, in response to receiving the training digital task 302, each evaluator of the first human evaluator 304, the second human evaluator 306, and the third human evaluator 308 performs the training digital task 302 by selecting a label. For example, the MLA algorithm 126 is capable of receiving a set of responses 310 that contains a first training label 312 assigned by the first human evaluator 304, a second training label 314 assigned by the second human evaluator 306, and a third training label 316 assigned by the third human evaluator 308. It should be noted that the MLA algorithm 126 is capable of receiving a set of responses 310 that contains unprocessed (i.e., unmerged) first training label 312, second training label 314, and third training label 316.

[0119] Шаг 506: получение сервером истории действий работника, связанной с каждым работником из множества работников и содержащей ранее отправленные каждым работником метки цифровой задачи.[0119] Step 506: receiving by the server a history of worker actions associated with each worker from the plurality of workers and containing digital task labels previously submitted by each worker.

[0120] На шаге 506 алгоритм 126 MLA сервера 102 способен получать из базы 124 данных журналов историю действий работника для каждого оценщика-человека из набора оценщиков-людей 106.[0120] At step 506, the MLA algorithm 126 of the server 102 is configured to obtain from the log database 124 the history of worker actions for each human evaluator from the set of human evaluators 106.

[0121] Шаг 508: обучение сервером алгоритма MLA, включающее в себя: ввод сервером цифровой обучающей задачи в алгоритм MLA, способный формировать векторное представление задачи, соответствующее векторному представлению цифровой обучающей задачи; ввод сервером историй действий работников в алгоритм MLA, способный формировать векторное представление работника, соответствующее векторному представлению истории действий работника для работника из множества работников; формирование триплета обучающих объектов, содержащего векторное представление задачи, векторное представление работника и метку цифровой обучающей задачи, связанную с векторным представлением работника; использование триплета обучающих объектов для обучения алгоритма MLA прогнозированию метки цифровой задачи для векторного представления цифровой задачи, определяемой для цифровой задачи и векторного представления работника.[0121] Step 508: training, by a server, an MLA algorithm, including: inputting, by the server, a digital training task into an MLA algorithm capable of generating a vector representation of the task corresponding to the vector representation of the digital training task; inputting, by the server, histories of worker actions into an MLA algorithm capable of generating a vector representation of a worker corresponding to a vector representation of a worker action history for a worker from a plurality of workers; generating a triplet of training objects containing a vector representation of the task, a vector representation of the worker, and a label of the digital training task associated with the vector representation of the worker; using the triplet of training objects to train the MLA algorithm to predict a label of the digital task for the vector representation of the digital task determined for the digital task and the vector representation of the worker.

[0122] На шаге 508 алгоритм 126 MLA способен формировать набор 320 векторных представлений работников, содержащий первое векторное представление 322 работника, связанное с первым оценщиком-человеком 304, второе векторное представление 324 работника, связанное со вторым оценщиком-человеком 306, и третье векторное представление 326 работника, связанное с третьим оценщиком-человеком 308.[0122] At step 508, the MLA algorithm 126 is configured to generate a set 320 of vector representations of workers comprising a first vector representation 322 of the worker associated with a first human evaluator 304, a second vector representation 324 of the worker associated with a second human evaluator 306, and a third vector representation 326 of the worker associated with a third human evaluator 308.

[0123] Алгоритм 126 MLA дополнительно способен получать в качестве входных данных обучающую цифровую задачу и формировать векторное представление 318 задачи для обучающей цифровой задачи 302. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии алгоритм 126 MLA способен определять или получать из базы 121 данных цифровых задач один или несколько латентных признаков, связанных с обучающей цифровой задачей 302, и формировать векторное представление 318 задачи на основе одного или нескольких латентных признаков, связанных с обучающей цифровой задачей 302.[0123] The MLA algorithm 126 is further configured to receive as input a training digital task and to generate a task vector representation 318 for the training digital task 302. In some non-limiting embodiments of the present technology, the MLA algorithm 126 is configured to determine or obtain from the digital task database 121 one or more latent features associated with the training digital task 302 and to generate the task vector representation 318 based on the one or more latent features associated with the training digital task 302.

[0124] Набор 310 ответов, векторное представление 318 задачи и набор 320 векторных представлений работников в совокупности образуют набор 328 обучающих данных (что более подробно описано ниже).[0124] The set 310 responses, the task vector representation 318, and the set 320 worker vector representations collectively form a training data set 328 (as described in more detail below).

[0125] Ниже описано обучение алгоритма 126 MLA с использованием набора 328 обучающих данных. Набор 328 обучающих данных содержит триплеты обучающих данных, а именно: первый триплет 330 обучающих объектов, второй триплет 332 обучающих объектов и третий триплет 334 обучающих объектов. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии каждый триплет обучающих объектов связан с оценщиком-человеком и с обучающей цифровой задачей. Например, первый триплет 330 обучающих объектов связан с первым оценщиком-человеком 304 и содержит первую обучающую метку 312, векторное представление 318 задачи и первое векторное представление 322 работника.[0125] The training of the MLA algorithm 126 is described below using the training data set 328. The training data set 328 comprises triplets of training data, namely: a first triplet 330 of training objects, a second triplet 332 of training objects, and a third triplet 334 of training objects. In some non-limiting embodiments of the present technology, each triplet of training objects is associated with a human evaluator and with a training digital task. For example, the first triplet 330 of training objects is associated with a first human evaluator 304 and comprises a first training label 312, a vector representation 318 of the task, and a first vector representation 322 of the worker.

[0126] Набор 328 обучающих данных или, в частности, отдельные триплеты обучающих объектов вводятся в алгоритм 126 MLA. Алгоритм 126 MLA содержит логику обучения для определения набора признаков, связанных с каждым триплетом обучающих объектов (например, с первой обучающей меткой 312, с векторным представлением 318 задачи и с первым векторным представлением 322 работника). На основе набора признаков, связанных с каждым триплетом обучающих объектов, алгоритм 126 MLA способен обучаться прогнозированию метки для цифровой задачи на основе векторного представления задачи и векторного представления работника.[0126] A set of 328 training data, or in particular individual triplets of training objects, are input to an MLA algorithm 126. The MLA algorithm 126 comprises a learning logic for determining a set of features associated with each triplet of training objects (e.g., with a first training label 312, with a vector representation 318 of a task, and with a first vector representation 322 of a worker). Based on the set of features associated with each triplet of training objects, the MLA algorithm 126 is capable of learning to predict a label for a digital task based on a vector representation of the task and a vector representation of a worker.

[0127] Шаг 510 – на этапе использования: получение сервером цифровой задачи; определение сервером векторного представления задачи для цифровой задачи; прогнозирование с использованием алгоритма MLA множества меток цифровой задачи для цифровой задачи на основе набора векторных представлений работников и векторного представления задачи для цифровой задачи; определение сервером метки цифровой задачи, соответствующей по меньшей мере одной метке цифровой задачи из множества меток цифровой задачи для цифровой задачи.[0127] Step 510 - at the use stage: receiving by the server a digital task; determining by the server a vector representation of the task for the digital task; predicting, using the MLA algorithm, a plurality of digital task labels for the digital task based on the set of vector representations of the workers and the vector representation of the task for the digital task; determining by the server a digital task label corresponding to at least one digital task label from the plurality of digital task labels for the digital task.

[0128] На шаге 510 сервер 102 получает пакет 408 данных, содержащий цифровую задачу 208 из базы 121 данных цифровых задач. Сервер 102 способен обращаться к базе 124 данных журналов и выбирать одну или несколько историй действий работников, соответствующих заранее заданному условию. Можно предположить, что сервер 102 определил три истории действий работников, соответствующие заранее заданному условию. Тогда сервер 102 может сформировать набор 418 векторных представлений работников, каждое из которых соответствует векторному представлению истории действий работника, соответствующей заранее заданному условию. Сервер 102 дополнительно способен формировать векторное представление 416 задачи для цифровой задачи 208 с использованием алгоритма 126 MLA.[0128] In step 510, the server 102 receives a data packet 408 containing a digital task 208 from the digital task database 121. The server 102 is capable of accessing the log database 124 and selecting one or more worker action histories that meet a predetermined condition. It may be assumed that the server 102 has determined three worker action histories that meet a predetermined condition. Then, the server 102 may generate a set 418 of vector representations of workers, each of which corresponds to a vector representation of a worker action history that meets a predetermined condition. The server 102 is further capable of generating a vector representation 416 of a task for the digital task 208 using the MLA algorithm 126.

[0129] Сформировав векторное представление 416 задачи и имея набор 418 векторных представлений работников, сервер 102 способен выполнять алгоритм 126 MLA, ранее обученный прогнозированию метки (т.е. первой метки 210 или второй метки 212) на основе векторного представления 416 задачи и каждого векторного представления работника из набора 418 векторных представлений работников.[0129] Having generated the task vector representation 416 and having the set 418 worker vector representations, the server 102 is capable of executing the MLA algorithm 126 previously trained to predict a label (i.e., the first label 210 or the second label 212) based on the task vector representation 416 and each worker vector representation from the set 418 worker vector representations.

[0130] На этом способ 500 завершается.[0130] This completes Method 500.

[0131] Специалистам в данной области техники должно быть понятно, что по меньшей некоторые варианты осуществления настоящей технологии преследуют цель расширения арсенала технических решений определенной технической задачи, характерной для традиционной краудсорсинговой технологии, а именно, определения результата для задачи в краудсорсинговой среде.[0131] It should be understood by those skilled in the art that at least some embodiments of the present technology are intended to expand the range of technical solutions to a specific technical problem characteristic of traditional crowdsourcing technology, namely, determining a result for a problem in a crowdsourcing environment.

[0132] Очевидно, что не все упомянутые в данном описании технические эффекты должны присутствовать в каждом варианте осуществления настоящей технологии. Например, возможны варианты осуществления настоящей технологии, когда пользователь не получает некоторых из этих технических эффектов, или другие варианты реализации, когда пользователь получает другие технические эффекты либо когда технический эффект отсутствует.[0132] It is obvious that not all technical effects mentioned in this description must be present in every embodiment of the present technology. For example, there may be embodiments of the present technology where the user does not receive some of these technical effects, or other embodiments where the user receives other technical effects or where the technical effect is absent.

[0133] Для специалиста в данной области техники могут быть очевидными возможные изменения и усовершенствования описанных выше вариантов осуществления настоящей технологии. Предшествующее описание приведено лишь в иллюстративных целях, а не для ограничения объема изобретения. Объем охраны настоящей технологии определяется исключительно объемом приложенной формулы изобретения.[0133] Possible changes and improvements to the above-described embodiments of the present technology may be obvious to a person skilled in the art. The preceding description is provided for illustrative purposes only and is not intended to limit the scope of the invention. The scope of protection of the present technology is determined solely by the scope of the appended claims.

[0134] Несмотря на то, что описанные выше варианты реализации приведены со ссылкой на конкретные шаги, выполняемые в определенном порядке, должно быть понятно, что эти шаги могут быть объединены, разделены или что их порядок может быть изменен без выхода за границы настоящей технологии. Соответственно, порядок и группировка шагов не носят ограничительного характера для настоящей технологии.[0134] Although the embodiments described above are described with reference to specific steps performed in a particular order, it should be understood that these steps may be combined, separated, or that their order may be changed without departing from the scope of the present technology. Accordingly, the order and grouping of the steps are not limiting to the present technology.

Claims

1. A computer-implemented method for generating a digital task label using a machine learning algorithm (MLA), performed by a server associated with a crowdsourcing digital platform and comprising:

at the training stage:

- receiving a digital training task by the server for execution on a crowdsourcing digital platform;

- receiving by the server a plurality of digital learning task labels corresponding to the digital learning task from a plurality of client devices associated with workers, wherein said plurality of client devices are associated with a crowdsourcing digital platform, in response to a digital learning task sent to the plurality of client devices using the crowdsourcing digital platform;

- receiving by the server the history of digital tags containing digital task tags previously received from each client device;

- server training of the MLA algorithm, including:

- input of a digital learning task by the server into the MLA algorithm, which is capable of generating a vector representation of the task corresponding to the vector representation of the digital learning task;

- input of digital tag histories by the server into the MLA algorithm to form a vector representation of the worker with whom a given client device from a set of client devices is associated;

Moreover, the formation of a vector representation of the employee with whom this client device is associated includes:

- determining for a given worker, with whom a given client device is associated, a latent parameter indicating the degree of the worker's bias in the direction of one or more latent features from a digital learning task and determined by analyzing the discrepancy matrix corresponding to the worker with whom a given client device is associated;

- formation of a triplet of training objects containing a vector representation of the task, a vector representation of the worker with whom the given client device is associated, and a label of the digital training task associated with the vector representation of the worker with whom the given client device is associated;

- using a triplet of training objects to train the MLA algorithm to predict the label of a digital task for a vector representation of a digital task and a vector representation of the worker with whom the client device is associated;

at the stage of use:

- receiving a digital task by the server;

- determination by the server of the vector representation of the task for the digital task;

- predicting, using the MLA algorithm, a set of digital task labels for a digital task based on a set of vector representations of workers associated with the corresponding client devices and a vector representation of the task for the digital task;

- determining by the server a digital task label corresponding to at least one digital task label from a plurality of digital task labels for the digital task.

2. The method according to claim 1, characterized in that determining the digital task label includes performing majorization based on a plurality of digital task labels for the digital task.

3. The method according to claim 1, characterized in that it further includes determining, for each employee with whom the corresponding client device from the plurality of client devices is associated, a quality assessment corresponding to the previous success rate in providing correct digital task labels, determined on the basis of the history of digital labels.

4. The method according to paragraph 3, characterized in that the set of vector representations of workers with which the corresponding client devices are associated belongs to a subset of the set of workers corresponding to a predetermined condition.

5. The method according to claim 4, characterized in that the predetermined condition corresponds to a subset of the plurality of workers with which the corresponding client devices are associated, containing one or more workers with a previous success rate exceeding a predetermined threshold.

6. The method according to claim 3, characterized in that the digital task is a digital task of the first type, and the predetermined condition corresponds to a subset of the plurality of workers with which the corresponding client devices are associated, containing one or more workers with a previous success rate exceeding a predetermined threshold for the digital task of the first type.

7. The method according to paragraph 1, characterized in that the formation of a vector representation of the task for the training digital task includes:

- determining for a training digital task one or more latent features that influence the selection of a training label received from a client device;

- formation of a vector representation of the problem based on one or more latent features.

8. The method according to claim 7, characterized in that one or more latent features include at least one of the following:

- font size related to the content of the educational digital task;

- image size associated with the content of the educational digital task;

- the number of selectable labels associated with the educational digital task;

- the location of selectable labels in the content of the educational digital task.

9. A system for generating a digital task label using the MLA algorithm with a server connected to a crowdsourcing digital platform and containing a processor configured to:

at the training stage:

- receiving a digital learning task to complete on a crowdsourcing digital platform;

- receiving a plurality of digital learning task labels corresponding to the digital learning task from a plurality of client devices associated with workers, wherein said plurality of client devices are associated with a crowdsourcing digital platform, in response to a digital learning task sent to the plurality of client devices using the crowdsourcing digital platform;

- obtaining a history of digital tags containing digital task tags previously received from each client device;

- training the MLA algorithm, for which the processor is designed with the ability to:

- input of a digital learning task into the MLA algorithm, which is capable of generating a vector representation of the task corresponding to the vector representation of the digital learning task;

- input of digital tag histories into the MLA algorithm to form a vector representation of the worker with whom a given client device from a set of client devices is associated;

Moreover, in order to form a vector representation of the employee with whom the given client device is connected, the processor is designed with the ability to:

- determining, for a given worker with whom a given client device is associated, a latent parameter indicating the degree of bias in the direction of one or more latent features from a digital learning task and determined by analyzing a discrepancy matrix corresponding to the worker with whom a given client device is associated;

- forming a triplet of training objects containing a vector representation of the task, a vector representation of the worker with whom the given client device is associated, and a label of the digital training task associated with the vector representation of the worker with whom the given client device is associated;

at the stage of use:

- obtaining a digital task;

- definition of vector representation of the problem for a digital problem;

- predicting, by executing the MLA algorithm, a set of digital task labels for a digital task based on a set of vector representations of workers associated with the corresponding client devices and a vector representation of the task for the digital task;

- determining a digital task label corresponding to at least one digital task label from a plurality of digital task labels for a digital task.

10. The system according to claim 9, characterized in that the processor for determining the digital task label is configured to perform majorization based on a plurality of digital task labels for the digital task.

11. The system according to claim 9, characterized in that the processor is additionally configured to determine for each employee with whom the client device is associated, from a plurality of client devices, a quality assessment corresponding to the previous success rate in providing correct digital task labels, determined on the basis of the history of digital labels.

12. The system according to claim 11, characterized in that the set of vector representations of workers with which the corresponding client devices are associated relates to a subset of the set of workers with which the corresponding client devices are associated, corresponding to a predetermined condition.

13. The system of claim 12, wherein the predetermined condition corresponds to a subset of the plurality of workers with which the corresponding client devices are associated, containing one or more workers with which the corresponding client devices are associated, with a previous success rate exceeding a predetermined threshold.

14. The system of claim 11, wherein the digital task is a digital task of the first type, and the predetermined condition corresponds to a subset of the plurality of workers with which the corresponding client devices are associated, containing one or more workers with which the corresponding client devices are associated, with a previous success rate exceeding a predetermined threshold for the digital task of the first type.

15. The system according to item 9, characterized in that, in order to form a vector representation of the task for the training digital task, the processor is designed with the ability to:

16. The system of claim 15, wherein one or more latent features include at least one of the following:

- font size related to the content of the educational digital task;

- image size associated with the content of the educational digital task;

- the number of selectable labels associated with the educational digital task;