RU2019128018A

RU2019128018A - Способ и система для определения ответа для цифровой задачи, выполняемой в компьютерной краудсорсинговой среде

Info

Publication number: RU2019128018A
Application number: RU2019128018A
Authority: RU
Inventors: Анастасия Александровна БЕЗЗУБЦЕВА; Валентина Павловна Федорова; Алексей Валерьевич Друца; Александр Леонидович Шишкин; Глеб Геннадьевич Гусев
Original assignee: Общество С Ограниченной Ответственностью "Яндекс"
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2021-03-05
Also published as: US20210073596A1; US11604855B2

Claims

1. Способ определения ответа для цифровой задачи, выполняемой в компьютерной краудсорсинговой среде, доступной множеству краудсорсинговых оценщиков, выполняемый сервером, реализующим компьютерную краудсорсинговую среду и доступным через сеть связи электронным устройствам, связанным со множеством краудсорсинговых оценщиков, включающий в себя:

- получение сервером от первого подмножества из множества краудсорсинговых оценщиков множества ответов для цифровой задачи;

- определение сервером соответствия количества ответов во множестве ответов для цифровой задачи заранее заданному минимальному порогу количества ответов; и

- выполнение следующих действий при соответствии количества ответов во множестве ответов для цифровой задачи заранее заданному минимальному порогу количества ответов:

- формирование сервером для каждого ответа из множества ответов параметра надежности, представляющего собой вероятность того, что соответствующий ответ из множества ответов является верным;

- ранжирование множества ответов на основе параметра надежности с целью определения лучшего ответа, связанного с наибольшим параметром надежности;

- назначение значения лучшего ответа в качестве метки для цифровой задачи и завершение выполнения цифровой задачи, если наибольший параметр надежности больше заранее заданного минимального порога надежности;

- инициирование запроса на дополнительный ответ от по меньшей мере одного дополнительного краудсорсингового оценщика из множества краудсорсинговых оценщиков, если наибольший параметр надежности меньше заранее заданного минимального порога надежности.

2. Способ по п. 1, отличающийся тем, что, если наибольший параметр надежности меньше заранее заданного минимального порога надежности, способ дополнительно включает в себя проверку того, является ли количество ответов во множестве ответов меньшим заранее заданного максимального количества запрошенных ответов, и в случае положительного результата инициирование запроса на дополнительный ответ.

3. Способ по п. 1, отличающийся тем, что, если наибольший параметр надежности меньше заранее заданного минимального порога надежности, способ дополнительно включает в себя:

- проверку превышения количеством ответов во множестве ответов заранее заданного максимального количества запрошенных ответов и в случае положительного результата отказ от инициирования запроса на дополнительный ответ; и

- определение невозможности завершения цифровой задачи в компьютерной краудсорсинговой среде.

4. Способ по п. 1, отличающийся тем, что цифровая задача имеет неограниченное количество возможных верных ответов.

5. Способ по п. 4, отличающийся тем, что цифровая задача представляет собой задачу распознавания изображений.

6. Способ по п. 5, отличающийся тем, что изображение представляет собой изображение вида CAPTCHA.

7. Способ по п. 1, отличающийся тем, что цифровая задача включает в себя назначение метки цифровому объекту.

8. Способ по п. 7, отличающийся тем, что метка представляет собой бинарную метку или категориальную метку.

9. Способ по п. 1, отличающийся тем, что формирование сервером параметра надежности включает в себя применение алгоритма MLA для формирования параметра надежности.

10. Способ по п. 9, отличающийся тем, что алгоритм MLA формирует параметр надежности на основе вектора признаков, содержащего множество групп признаков: первая группа связана с ответом, вторая группа связана с соответствующей цифровой задачей, а третья группа связана с другими ответами из множества ответов.

11. Способ по п. 10, отличающийся тем, что первая группа содержит признаки, представляющие собой по меньшей мере одно из следующего:

- содержит ли ответ заглавные буквы;

- содержит ли ответ знаки препинания;

- содержит ли ответ латинские буквы;

- содержит ли ответ цифры;

- содержит ли ответ кириллические буквы;

- расстояние LD между ответом и прогнозом модели OCR для контента цифровой задачи; и

- надежность прогноза модели OCR.

12. Способ по п. 10, отличающийся тем, что вторая группа содержит признаки, представляющие собой по меньшей мере одно из следующего:

- отношение для положения цифровой задачи слева и справа от контрольного слова во множестве ответов, полученных до этого момента времени;

- доля вариантов во множестве ответов, полученных до этого момента времени, с расположением цифровой задачи справа от контрольного слова;

- разность для положения цифровой задачи слева и справа от контрольного слова во всем множестве ответов, полученных до этого момента времени;

- доля вариантов во множестве ответов с расположением цифровой задачи слева от контрольного слова.

13. Способ по п. 10, отличающийся тем, что третья группа содержит признаки, представляющие собой по меньшей мере одно из следующего:

- доля голосов за ответ из множества ответов среди ответов, собранных до текущего момента времени;

- расстояние LD между ответом из множества ответов и ответом с большинством голосов;

- отношение доли голосов за ответ из множества ответов к доле голосов за ответ с большинством голосов;

- отношение количества ответов для известных цифровых задач к количеству ответов для неизвестных задач;

- отношение медианной длительности ввода во множестве ответов к длине ответа из множества ответов в символах;

- отношение средней длительности ввода для множества ответов к длине ответа из множества ответов в символах;

- наибольшая длительность ввода для множества ответов;

- 25-й процентиль длительности ввода для множества ответов;

- наименьшая длительность ввода для множества ответов;

- медианная длительность ввода для множества ответов;

- 25-й процентиль времени суток для множества ответов;

- медианное время суток для множества ответов;

- 75-й процентиль времени суток для множества ответов;

- 75-й процентиль длительности ввода для множества ответов;

-отношение наименьшей длительности ввода для множества ответов к средней длительности;

- отношение наименьшей длительности ввода для множества ответов к наибольшей длительности;

- среднее время суток для множества ответов; и

- средняя длительность ввода для множества ответов.

14. Способ по п. 2 или 3, отличающийся тем, что он дополнительно включает в себя применение по меньшей мере одного алгоритма MLA для формирования заранее заданного минимального порога количества ответов и/или заранее заданного максимального количества запрошенных ответов и/или заранее заданного минимального порога надежности.

15. Способ по п. 14, отличающийся тем, что алгоритм MLA способен оптимизировать заранее заданный минимальный порог количества ответов и/или заранее заданное максимальное количество запрошенных ответов и/или заранее заданный минимальный порог надежности так, чтобы:

- минимизировать количество ответов во множестве ответов для цифровой задачи, необходимых для того, чтобы рассматривать цифровую задачу как завершенную; и

- максимизировать параметр точности, связанный с меткой, назначенной для цифровой задачи.

16. Способ по п. 1, отличающийся тем, что множество краудсорсинговых оценщиков содержит по меньшей мере одного оценщика-человека и по меньшей мере одного оценщика на основе компьютера.

17. Способ по п. 1, отличающийся тем, что способ обеспечивает получение динамического количества ответов, указывающего на количество ответов во множестве ответов для цифровой задачи, необходимых для того, чтобы рассматривать цифровую задачу как завершенную.

18. Способ по п. 1, отличающийся тем, что цифровая задача содержит неизвестную задачу и контрольную задачу, связанную с известной меткой, а способ дополнительно включает в себя:

- проверку соответствия первого ответа для контрольной задачи известной метке;

- обработку второго ответа для неизвестной задачи в случае положительного результата проверки; и

- игнорирование второго ответа для неизвестной задачи в случае отрицательного результата проверки.

19. Сервер для определения ответа для цифровой задачи, выполняемой в компьютерной краудсорсинговой среде, доступной множеству краудсорсинговых оценщиков и реализуемой этим сервером, доступным через сеть связи электронным устройствам, связанным со множеством краудсорсинговых оценщиков, выполненный с возможностью:

- получения от первого подмножества из множества краудсорсинговых оценщиков множества ответов для цифровой задачи;

- определения соответствия количества ответов во множестве ответов для цифровой задачи заранее заданному минимальному порогу количества ответов; и

- выполнения следующих действий при соответствии количества ответов во множестве ответов для цифровой задачи заранее заданному минимальному порогу количества ответов:

- формирование для каждого ответа из множества ответов параметра надежности, представляющего собой вероятность того, что соответствующий ответ из множества ответов является верным;

- назначение значения лучшего ответа в качестве метки для цифровой задачи и завершение выполнения цифровой задачи, если наибольший параметр надежности больше заранее заданного минимального порога надежности; и

- инициирование запроса на дополнительный ответ от по меньшей мере одного дополнительного краудсорсингового оценщика из множества краудсорсинговых оценщиков, если наибольший параметр надежности меньше заранее заданного минимального порога надежности

20. Способ определения ответа для цифровой задачи, выполняемой в компьютерной краудсорсинговой среде, доступной множеству краудсорсинговых оценщиков, выполняемый сервером, реализующим компьютерную краудсорсинговую среду и доступным через сеть связи электронным устройствам, связанным со множеством краудсорсинговых оценщиков, включающий в себя:

- получение сервером от первого подмножества из множества краудсорсинговых оценщиков множества ответов для цифровой задачи; и

- динамическое определение сервером достаточности множества ответов для определения ответа для цифровой задачи путем:

- формирования сервером для каждого ответа из множества ответов параметра надежности, представляющего собой вероятность того, что соответствующий ответ из множества ответов является верным;

- ранжирования множества ответов на основе параметра надежности с целью определения лучшего ответа, связанного с наибольшим параметром надежности;

- назначения значения лучшего ответа в качестве метки для цифровой задачи и завершения выполнения цифровой задачи, если наибольший параметр надежности больше заранее заданного минимального порога надежности; и

- инициирования запроса на дополнительный ответ от по меньшей мере одного дополнительного краудсорсингового оценщика из множества краудсорсинговых оценщиков, если наибольший параметр надежности меньше заранее заданного минимального порога надежности.