RU2019128018A - Способ и система для определения ответа для цифровой задачи, выполняемой в компьютерной краудсорсинговой среде - Google Patents

Способ и система для определения ответа для цифровой задачи, выполняемой в компьютерной краудсорсинговой среде Download PDF

Info

Publication number
RU2019128018A
RU2019128018A RU2019128018A RU2019128018A RU2019128018A RU 2019128018 A RU2019128018 A RU 2019128018A RU 2019128018 A RU2019128018 A RU 2019128018A RU 2019128018 A RU2019128018 A RU 2019128018A RU 2019128018 A RU2019128018 A RU 2019128018A
Authority
RU
Russia
Prior art keywords
answers
answer
responses
digital
task
Prior art date
Application number
RU2019128018A
Other languages
English (en)
Inventor
Анастасия Александровна БЕЗЗУБЦЕВА
Валентина Павловна Федорова
Алексей Валерьевич Друца
Александр Леонидович Шишкин
Глеб Геннадьевич Гусев
Original Assignee
Общество С Ограниченной Ответственностью "Яндекс"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество С Ограниченной Ответственностью "Яндекс" filed Critical Общество С Ограниченной Ответственностью "Яндекс"
Priority to RU2019128018A priority Critical patent/RU2019128018A/ru
Priority to US16/904,742 priority patent/US11604855B2/en
Publication of RU2019128018A publication Critical patent/RU2019128018A/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Business, Economics & Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Claims (76)

1. Способ определения ответа для цифровой задачи, выполняемой в компьютерной краудсорсинговой среде, доступной множеству краудсорсинговых оценщиков, выполняемый сервером, реализующим компьютерную краудсорсинговую среду и доступным через сеть связи электронным устройствам, связанным со множеством краудсорсинговых оценщиков, включающий в себя:
- получение сервером от первого подмножества из множества краудсорсинговых оценщиков множества ответов для цифровой задачи;
- определение сервером соответствия количества ответов во множестве ответов для цифровой задачи заранее заданному минимальному порогу количества ответов; и
- выполнение следующих действий при соответствии количества ответов во множестве ответов для цифровой задачи заранее заданному минимальному порогу количества ответов:
- формирование сервером для каждого ответа из множества ответов параметра надежности, представляющего собой вероятность того, что соответствующий ответ из множества ответов является верным;
- ранжирование множества ответов на основе параметра надежности с целью определения лучшего ответа, связанного с наибольшим параметром надежности;
- назначение значения лучшего ответа в качестве метки для цифровой задачи и завершение выполнения цифровой задачи, если наибольший параметр надежности больше заранее заданного минимального порога надежности;
- инициирование запроса на дополнительный ответ от по меньшей мере одного дополнительного краудсорсингового оценщика из множества краудсорсинговых оценщиков, если наибольший параметр надежности меньше заранее заданного минимального порога надежности.
2. Способ по п. 1, отличающийся тем, что, если наибольший параметр надежности меньше заранее заданного минимального порога надежности, способ дополнительно включает в себя проверку того, является ли количество ответов во множестве ответов меньшим заранее заданного максимального количества запрошенных ответов, и в случае положительного результата инициирование запроса на дополнительный ответ.
3. Способ по п. 1, отличающийся тем, что, если наибольший параметр надежности меньше заранее заданного минимального порога надежности, способ дополнительно включает в себя:
- проверку превышения количеством ответов во множестве ответов заранее заданного максимального количества запрошенных ответов и в случае положительного результата отказ от инициирования запроса на дополнительный ответ; и
- определение невозможности завершения цифровой задачи в компьютерной краудсорсинговой среде.
4. Способ по п. 1, отличающийся тем, что цифровая задача имеет неограниченное количество возможных верных ответов.
5. Способ по п. 4, отличающийся тем, что цифровая задача представляет собой задачу распознавания изображений.
6. Способ по п. 5, отличающийся тем, что изображение представляет собой изображение вида CAPTCHA.
7. Способ по п. 1, отличающийся тем, что цифровая задача включает в себя назначение метки цифровому объекту.
8. Способ по п. 7, отличающийся тем, что метка представляет собой бинарную метку или категориальную метку.
9. Способ по п. 1, отличающийся тем, что формирование сервером параметра надежности включает в себя применение алгоритма MLA для формирования параметра надежности.
10. Способ по п. 9, отличающийся тем, что алгоритм MLA формирует параметр надежности на основе вектора признаков, содержащего множество групп признаков: первая группа связана с ответом, вторая группа связана с соответствующей цифровой задачей, а третья группа связана с другими ответами из множества ответов.
11. Способ по п. 10, отличающийся тем, что первая группа содержит признаки, представляющие собой по меньшей мере одно из следующего:
- содержит ли ответ заглавные буквы;
- содержит ли ответ знаки препинания;
- содержит ли ответ латинские буквы;
- содержит ли ответ цифры;
- содержит ли ответ кириллические буквы;
- расстояние LD между ответом и прогнозом модели OCR для контента цифровой задачи; и
- надежность прогноза модели OCR.
12. Способ по п. 10, отличающийся тем, что вторая группа содержит признаки, представляющие собой по меньшей мере одно из следующего:
- отношение для положения цифровой задачи слева и справа от контрольного слова во множестве ответов, полученных до этого момента времени;
- доля вариантов во множестве ответов, полученных до этого момента времени, с расположением цифровой задачи справа от контрольного слова;
- разность для положения цифровой задачи слева и справа от контрольного слова во всем множестве ответов, полученных до этого момента времени;
- доля вариантов во множестве ответов с расположением цифровой задачи слева от контрольного слова.
13. Способ по п. 10, отличающийся тем, что третья группа содержит признаки, представляющие собой по меньшей мере одно из следующего:
- доля голосов за ответ из множества ответов среди ответов, собранных до текущего момента времени;
- расстояние LD между ответом из множества ответов и ответом с большинством голосов;
- отношение доли голосов за ответ из множества ответов к доле голосов за ответ с большинством голосов;
- отношение количества ответов для известных цифровых задач к количеству ответов для неизвестных задач;
- отношение медианной длительности ввода во множестве ответов к длине ответа из множества ответов в символах;
- отношение средней длительности ввода для множества ответов к длине ответа из множества ответов в символах;
- наибольшая длительность ввода для множества ответов;
- 25-й процентиль длительности ввода для множества ответов;
- наименьшая длительность ввода для множества ответов;
- медианная длительность ввода для множества ответов;
- 25-й процентиль времени суток для множества ответов;
- медианное время суток для множества ответов;
- 75-й процентиль времени суток для множества ответов;
- 75-й процентиль длительности ввода для множества ответов;
-отношение наименьшей длительности ввода для множества ответов к средней длительности;
- отношение наименьшей длительности ввода для множества ответов к наибольшей длительности;
- среднее время суток для множества ответов; и
- средняя длительность ввода для множества ответов.
14. Способ по п. 2 или 3, отличающийся тем, что он дополнительно включает в себя применение по меньшей мере одного алгоритма MLA для формирования заранее заданного минимального порога количества ответов и/или заранее заданного максимального количества запрошенных ответов и/или заранее заданного минимального порога надежности.
15. Способ по п. 14, отличающийся тем, что алгоритм MLA способен оптимизировать заранее заданный минимальный порог количества ответов и/или заранее заданное максимальное количество запрошенных ответов и/или заранее заданный минимальный порог надежности так, чтобы:
- минимизировать количество ответов во множестве ответов для цифровой задачи, необходимых для того, чтобы рассматривать цифровую задачу как завершенную; и
- максимизировать параметр точности, связанный с меткой, назначенной для цифровой задачи.
16. Способ по п. 1, отличающийся тем, что множество краудсорсинговых оценщиков содержит по меньшей мере одного оценщика-человека и по меньшей мере одного оценщика на основе компьютера.
17. Способ по п. 1, отличающийся тем, что способ обеспечивает получение динамического количества ответов, указывающего на количество ответов во множестве ответов для цифровой задачи, необходимых для того, чтобы рассматривать цифровую задачу как завершенную.
18. Способ по п. 1, отличающийся тем, что цифровая задача содержит неизвестную задачу и контрольную задачу, связанную с известной меткой, а способ дополнительно включает в себя:
- проверку соответствия первого ответа для контрольной задачи известной метке;
- обработку второго ответа для неизвестной задачи в случае положительного результата проверки; и
- игнорирование второго ответа для неизвестной задачи в случае отрицательного результата проверки.
19. Сервер для определения ответа для цифровой задачи, выполняемой в компьютерной краудсорсинговой среде, доступной множеству краудсорсинговых оценщиков и реализуемой этим сервером, доступным через сеть связи электронным устройствам, связанным со множеством краудсорсинговых оценщиков, выполненный с возможностью:
- получения от первого подмножества из множества краудсорсинговых оценщиков множества ответов для цифровой задачи;
- определения соответствия количества ответов во множестве ответов для цифровой задачи заранее заданному минимальному порогу количества ответов; и
- выполнения следующих действий при соответствии количества ответов во множестве ответов для цифровой задачи заранее заданному минимальному порогу количества ответов:
- формирование для каждого ответа из множества ответов параметра надежности, представляющего собой вероятность того, что соответствующий ответ из множества ответов является верным;
- ранжирование множества ответов на основе параметра надежности с целью определения лучшего ответа, связанного с наибольшим параметром надежности;
- назначение значения лучшего ответа в качестве метки для цифровой задачи и завершение выполнения цифровой задачи, если наибольший параметр надежности больше заранее заданного минимального порога надежности; и
- инициирование запроса на дополнительный ответ от по меньшей мере одного дополнительного краудсорсингового оценщика из множества краудсорсинговых оценщиков, если наибольший параметр надежности меньше заранее заданного минимального порога надежности
20. Способ определения ответа для цифровой задачи, выполняемой в компьютерной краудсорсинговой среде, доступной множеству краудсорсинговых оценщиков, выполняемый сервером, реализующим компьютерную краудсорсинговую среду и доступным через сеть связи электронным устройствам, связанным со множеством краудсорсинговых оценщиков, включающий в себя:
- получение сервером от первого подмножества из множества краудсорсинговых оценщиков множества ответов для цифровой задачи; и
- динамическое определение сервером достаточности множества ответов для определения ответа для цифровой задачи путем:
- формирования сервером для каждого ответа из множества ответов параметра надежности, представляющего собой вероятность того, что соответствующий ответ из множества ответов является верным;
- ранжирования множества ответов на основе параметра надежности с целью определения лучшего ответа, связанного с наибольшим параметром надежности;
- назначения значения лучшего ответа в качестве метки для цифровой задачи и завершения выполнения цифровой задачи, если наибольший параметр надежности больше заранее заданного минимального порога надежности; и
- инициирования запроса на дополнительный ответ от по меньшей мере одного дополнительного краудсорсингового оценщика из множества краудсорсинговых оценщиков, если наибольший параметр надежности меньше заранее заданного минимального порога надежности.
RU2019128018A 2019-09-05 2019-09-05 Способ и система для определения ответа для цифровой задачи, выполняемой в компьютерной краудсорсинговой среде RU2019128018A (ru)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2019128018A RU2019128018A (ru) 2019-09-05 2019-09-05 Способ и система для определения ответа для цифровой задачи, выполняемой в компьютерной краудсорсинговой среде
US16/904,742 US11604855B2 (en) 2019-09-05 2020-06-18 Method and system for determining response for digital task executed in computer-implemented crowd-sourced environment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2019128018A RU2019128018A (ru) 2019-09-05 2019-09-05 Способ и система для определения ответа для цифровой задачи, выполняемой в компьютерной краудсорсинговой среде

Publications (1)

Publication Number Publication Date
RU2019128018A true RU2019128018A (ru) 2021-03-05

Family

ID=74851272

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2019128018A RU2019128018A (ru) 2019-09-05 2019-09-05 Способ и система для определения ответа для цифровой задачи, выполняемой в компьютерной краудсорсинговой среде

Country Status (2)

Country Link
US (1) US11604855B2 (ru)
RU (1) RU2019128018A (ru)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313195A (zh) * 2021-06-17 2021-08-27 北京百度网讯科技有限公司 标注任务处理方法、装置、设备、存储介质及程序产品
CN117196734A (zh) * 2023-09-14 2023-12-08 长沙理工大学 一种众包任务的价值评估方法、系统、设备及存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2020107002A (ru) 2020-02-14 2021-08-16 Общество С Ограниченной Ответственностью «Яндекс» Способ и система приема метки для цифровой задачи, исполняемой в краудсорсинговой среде
US20220067102A1 (en) * 2020-09-03 2022-03-03 International Business Machines Corporation Reasoning based natural language interpretation
JPWO2022149371A1 (ru) 2021-01-08 2022-07-14
CN113673957B (zh) * 2021-08-23 2022-04-19 中国人民解放军32801部队 文本数据的离线众包标注方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8321261B2 (en) * 2007-12-14 2012-11-27 John Nicholas and Kristin Gross Integrated gourmet item data collection, recommender and vending system and method
US8412661B2 (en) * 2010-11-24 2013-04-02 International Business Machines Corporation Smart survey with progressive discovery
US9047567B2 (en) * 2011-07-15 2015-06-02 International Business Machines Corporation Utilizing failures in question and answer system responses to enhance the accuracy of question and answer systems
US9760700B2 (en) * 2015-12-03 2017-09-12 Google Inc. Image based CAPTCHA challenges
US20170323211A1 (en) * 2016-05-09 2017-11-09 Mighty AI, Inc. Automated accuracy assessment in tasking system
US10909599B2 (en) * 2018-03-08 2021-02-02 Capital One Services, Llc Systems and methods for car shopping using messaging framework
US11120364B1 (en) * 2018-06-14 2021-09-14 Amazon Technologies, Inc. Artificial intelligence system with customizable training progress visualization and automated recommendations for rapid interactive development of machine learning models
RU2743898C1 (ru) * 2018-11-16 2021-03-01 Общество С Ограниченной Ответственностью "Яндекс" Способ выполнения задач
US10943681B2 (en) * 2018-11-21 2021-03-09 Enlitic, Inc. Global multi-label generating system

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313195A (zh) * 2021-06-17 2021-08-27 北京百度网讯科技有限公司 标注任务处理方法、装置、设备、存储介质及程序产品
CN113313195B (zh) * 2021-06-17 2023-09-29 北京百度网讯科技有限公司 标注任务处理方法、装置、设备、存储介质及程序产品
CN117196734A (zh) * 2023-09-14 2023-12-08 长沙理工大学 一种众包任务的价值评估方法、系统、设备及存储介质
CN117196734B (zh) * 2023-09-14 2024-03-22 长沙理工大学 一种众包任务的价值评估方法、系统、设备及存储介质

Also Published As

Publication number Publication date
US20210073596A1 (en) 2021-03-11
US11604855B2 (en) 2023-03-14

Similar Documents

Publication Publication Date Title
RU2019128018A (ru) Способ и система для определения ответа для цифровой задачи, выполняемой в компьютерной краудсорсинговой среде
US11734066B2 (en) Resource scheduling using machine learning
CN108053120B (zh) 一种模型整合方法及装置
US20180189950A1 (en) Generating structured output predictions using neural networks
CN108769026B (zh) 用户账号检测系统和方法
US20220215209A1 (en) Training machine learning models using unsupervised data augmentation
WO2020179525A1 (ja) モデル学習装置、ラベル推定装置、それらの方法、およびプログラム
CN113222942A (zh) 多标签分类模型的训练方法和预测标签的方法
US20200034215A1 (en) Techniques for automatically allocating tasks to application programming interfaces
CN115147687A (zh) 学生模型训练方法、装置、设备及存储介质
CN110852450A (zh) 识别对抗样本以保护模型安全的方法及装置
EP3803580B1 (en) Efficient incident management in large scale computer systems
US20180276530A1 (en) Object recognition using a spiking neural network
CN111488950B (zh) 分类模型信息输出方法及装置
US20220215169A1 (en) Combining multiple messages from a message queue in order to process for emoji responses
CN111353140A (zh) 验证码的生成、显示方法、装置和系统
US11868440B1 (en) Statistical model training systems
CN116629423A (zh) 用户行为预测方法、装置、设备及存储介质
KR20210046423A (ko) 머신러닝 기반 보안관제 장치 및 방법
CN113869431B (zh) 虚假信息检测方法、系统、计算机设备及可读存储介质
US10873550B2 (en) Methods for communication in a communication network for reduced data traffic
CN112966252A (zh) 一种基于密码技术的客户端验证方法、装置、电子设备及介质
CN116823452B (zh) 基于人工智能的异常事件识别方法、装置及设备
US20240185090A1 (en) Assessment of artificial intelligence errors using machine learning
US20240005358A1 (en) Method and system for facilitating predictive analytics by leveraging geolocation data

Legal Events

Date Code Title Description
FZ9A Application not withdrawn (correction of the notice of withdrawal)

Effective date: 20220321