RU2017144042A

RU2017144042A - Способы и системы для создания значений общего критерия оценки

Info

Publication number: RU2017144042A
Application number: RU2017144042A
Authority: RU
Inventors: Валерия Дмитриевна Цой; Роман Яковлевич Будылин; Алексей Валерьевич Друца; Илья Владимирович КАЦЕВ
Original assignee: Общество С Ограниченной Ответственностью "Яндекс"
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2019-06-17
Also published as: RU2699573C2; RU2017144042A3; US20190188244A1; US10949499B2

Claims

1. Способ создания значений общего критерия оценки (ОЕС) для использования во время тестирования контроль/эксперимент, исполняемого на компьютере сервиса, для выбора текущей версии исполняемого на компьютере сервиса между контрольной версией и экспериментальной версией, причем способ включает в себя:

для каждой из контрольной и экспериментальной версии:

получение сервером соответствующего набора данных, указывающих на пользовательские взаимодействия с соответствующей одной из контрольной и экспериментальной версий;

определение сервером соответствующего первого набора значений на основе соответствующего набора данных, которые являются значениями первой пользовательской метрики; и

определение сервером соответствующего второго набора значений на основе соответствующего набора данных, которые являются значениями второй пользовательской метрики;

выбор сервером значений линеаризации для линеаризованной пользовательской метрики, которая является линейной комбинацией первой и второй пользовательских метрик, причем ОЕС основан на линеаризованной пользовательской метрике, и причем значение линеаризации находится между контрольным коэффициентом и экспериментальным коэффициентом,

причем контрольный коэффициент является отношением (i) среднего значения из значений первого набора контрольной версии к (ii) среднему значению из значений второго набора контрольной версии,

а экспериментальный коэффициент является отношением (i) среднего значения из значений первого набора экспериментальной версии к (ii) среднему значению из значений второго набора экспериментальной версии;

определение сервером соответствующего линеаризованного набора значений, причем значения в данном линеаризованном наборе представляют собой разницу между (i) значениями соответствующего первого набора и (ii) значениями соответствующего второго набора, которые взвешены значением линеаризации, причем значения линеаризованных наборов представляют собой значения линеаризованной пользовательской метрики; и

создание сервером соответствующего значения ОЕС на основе соответствующих линеаризованных наборов, причем разница между значениями ОЕС указывает на (i) степень изменения в пользовательских взаимодействиях между контрольной версией и экспериментальной версией и (ii) направлением изменения в пользовательских взаимодействиях между контрольной версией и экспериментальной версией, причем направление может быть положительным или отрицательным.

2. Способ по п. 1, в котором выбор значения линеаризации для линеаризованной пользовательской метрики представляет собой:

определение сервером одного из контрольного коэффициента и экспериментального коэффициента;

выбор сервером одного из контрольного коэффициента и экспериментального коэффициента в качестве значения линеаризации.

3. Способ по п. 1, в котором выбор значения линеаризации для линеаризованной пользовательской метрики представляет собой:

определение сервером интервала значения линеаризации, который содержит все значения между контрольным коэффициентом и экспериментальным коэффициентом включительно; и

выбор сервером любого значения и интервале значений линеаризации в качестве значения линеаризации.

4. Способ по п. 1, который далее включает в себя применение сервером проверки на статистическую значимость для определения уровня значимости разницы между значениями ОЕС.

5. Способ по п. 4, в котором проверка на статистическую значимость представляет собой одно из следующего:

бутстрэп-тест;

дельта-тест; и

т-тест.

6. Способ по п. 5, в котором проверка на статистическую значимость представляет собой т-тест, и причем способ дополнительно включает в себя:

определение сервером, для каждой из контрольной версии и экспериментальной версии, соответствующего набора значений с повышенной чувствительностью путем применения повышающего чувствительность алгоритма к соответствующему линеаризованному набору значений, и причем создание соответствующих значений ОЕС включает в себя:

создание соответствующих средних значений для значений соответствующих наборов с повышенной чувствительностью.

7. Способ по п. 1, который далее включает в себя выбор одной из контрольной версии и экспериментальной версии в качестве текущей версии исполняемого на компьютере сервиса на основе направления изменения во взаимодействиях пользователя из контрольной и экспериментальной версии.

8. Способ по п. 1, в котором одна из первой и второй пользовательской метрики представляет собой одно из:

число кликов пользователя;

число запросов пользователя; и

число сессий пользователя.

9. Способ по п. 1, в котором линеаризованная пользовательская метрика является комбинацией первой и второй пользовательских метрик в соответствии с:

L(u_i)=Х(u_i)-к*Y(u_i)

где: L - линеаризованная пользовательская метрика, X - первая пользовательская метрика, Y - вторая пользовательская метрика, и к - значение линеаризации.

10. Сервер для создания значений общего критерия оценки (ОЕС) для использования во время тестирования контроль/эксперимент исполняемого на компьютере сервиса для выбора текущей версии исполняемого на компьютере сервиса между контрольной версией и экспериментальной версией:

получение соответствующего набора данных, указывающих на пользовательские взаимодействия с соответствующей одной из контрольной и экспериментальной версий;

определение соответствующего первого набора значений на основе соответствующего набора данных, которые являются значениями первой пользовательской метрики; и

определение соответствующего второго набора значений на основе соответствующего набора данных, которые являются значениями второй пользовательской метрики;

выбор значений линеаризации для линеаризованной пользовательской метрики, которая является линейной комбинацией первой и второй пользовательских метрик, и ОЕС основан на линеаризованной пользовательской метрике, значение линеаризации находится между коэффициентом контроля и коэффициентом эксперимента,

контрольный коэффициент является отношением (i) среднего значения из значений первого набора контрольной версии к (ii) среднему значению из значений второго набора контрольной версии,

экспериментальный коэффициент является отношением (i) среднего значения из значений первого набора экспериментальной версии к (ii) среднему значению из значений второго набора экспериментальной версии.

определение соответствующего линеаризованного набора значений, причем значения в данном линеаризованном наборе представляют собой разницу между (i) значениями соответствующего первого набора и (ii) значениями соответствующего второго набора, которые взвешены значением линеаризации, причем значения линеаризованных наборов представляют собой значения линеаризованной пользовательской метрики; и

создание соответствующего значения ОЕС на основе соответствующих линеаризованных наборов, причем разница между значениями ОЕС указывает на (i) степень изменения в пользовательских взаимодействиях между контрольной версией и экспериментальной версией и (ii) направлением изменения в пользовательских взаимодействиях между контрольной версией и экспериментальной версией, причем направление может быть положительным или отрицательным.

11. Сервер по п. 10, который выполнен с возможностью осуществлять выбор значения линеаризации для линеаризованной пользовательской метрики, причем сервер далее выполнен с возможностью осуществлять:

определение одного из контрольного коэффициента и экспериментального коэффициента;

выбор одного из контрольного коэффициента и экспериментального коэффициента в качестве значения линеаризации.

12. Сервер по п. 10, который выполнен с возможностью осуществлять выбор значения линеаризации для линеаризованной пользовательской метрики, причем сервер выполнен с возможностью осуществлять:

определение интервала значения линеаризации, который содержит все значения между контрольным коэффициентом и экспериментальным коэффициентом включительно; и

выбор любого значения и интервале значений линеаризации в качестве значения линеаризации.

13. Сервер по п. 10, который далее выполнен с возможностью осуществлять применение проверки на статистическую значимость для определения уровня значимости разницы между значениями ОЕС.

14. Сервер по п. 13, в котором проверка на статистическую значимость представляет собой одно из следующего:

бутстрэп-тест;

дельта-тест; и

т-тест.

15. Сервер по п. 14, в котором проверка на статистическую значимость представляет собой т-тест, и причем сервер дополнительно выполнен с возможностью осуществлять:

определение, для каждой из контрольной версии и экспериментальной версии, соответствующего набора значений с повышенной чувствительностью путем применения повышающего чувствительность алгоритма к соответствующему линеаризованному набору значений, и причем сервер выполнен с возможностью осуществлять создание соответствующих значений ОЕС и сервер выполнен с возможностью осуществлять:

16. Сервер по п. 10, который далее выполнен с возможностью осуществлять выбор одной из контрольной версии и экспериментальной версии в качестве текущей версии исполняемого на компьютере сервиса на основе направления изменения во взаимодействиях пользователя из контрольной и экспериментальной версии.

17. Сервер по п. 10, в котором одна из первой и второй пользовательской метрики представляет собой одно из:

число кликов пользователя;

число запросов пользователя; и

число сессий пользователя.

18. Сервер по п. 10, в котором линеаризованная пользовательская метрика является комбинацией первой и второй пользовательских метрик в соответствии с:

L(u_i)=Х(u_i)-к*Y(u_i)