RU2017144042A - Способы и системы для создания значений общего критерия оценки - Google Patents

Способы и системы для создания значений общего критерия оценки Download PDF

Info

Publication number
RU2017144042A
RU2017144042A RU2017144042A RU2017144042A RU2017144042A RU 2017144042 A RU2017144042 A RU 2017144042A RU 2017144042 A RU2017144042 A RU 2017144042A RU 2017144042 A RU2017144042 A RU 2017144042A RU 2017144042 A RU2017144042 A RU 2017144042A
Authority
RU
Russia
Prior art keywords
values
version
experimental
control
user
Prior art date
Application number
RU2017144042A
Other languages
English (en)
Other versions
RU2699573C2 (ru
RU2017144042A3 (ru
Inventor
Валерия Дмитриевна Цой
Роман Яковлевич Будылин
Алексей Валерьевич Друца
Илья Владимирович КАЦЕВ
Original Assignee
Общество С Ограниченной Ответственностью "Яндекс"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество С Ограниченной Ответственностью "Яндекс" filed Critical Общество С Ограниченной Ответственностью "Яндекс"
Priority to RU2017144042A priority Critical patent/RU2699573C2/ru
Priority to US16/011,247 priority patent/US10949499B2/en
Publication of RU2017144042A publication Critical patent/RU2017144042A/ru
Publication of RU2017144042A3 publication Critical patent/RU2017144042A3/ru
Application granted granted Critical
Publication of RU2699573C2 publication Critical patent/RU2699573C2/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Mathematical Physics (AREA)
  • Operations Research (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Educational Administration (AREA)
  • Tourism & Hospitality (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Human Computer Interaction (AREA)
  • Debugging And Monitoring (AREA)

Claims (66)

1. Способ создания значений общего критерия оценки (ОЕС) для использования во время тестирования контроль/эксперимент, исполняемого на компьютере сервиса, для выбора текущей версии исполняемого на компьютере сервиса между контрольной версией и экспериментальной версией, причем способ включает в себя:
для каждой из контрольной и экспериментальной версии:
получение сервером соответствующего набора данных, указывающих на пользовательские взаимодействия с соответствующей одной из контрольной и экспериментальной версий;
определение сервером соответствующего первого набора значений на основе соответствующего набора данных, которые являются значениями первой пользовательской метрики; и
определение сервером соответствующего второго набора значений на основе соответствующего набора данных, которые являются значениями второй пользовательской метрики;
выбор сервером значений линеаризации для линеаризованной пользовательской метрики, которая является линейной комбинацией первой и второй пользовательских метрик, причем ОЕС основан на линеаризованной пользовательской метрике, и причем значение линеаризации находится между контрольным коэффициентом и экспериментальным коэффициентом,
причем контрольный коэффициент является отношением (i) среднего значения из значений первого набора контрольной версии к (ii) среднему значению из значений второго набора контрольной версии,
а экспериментальный коэффициент является отношением (i) среднего значения из значений первого набора экспериментальной версии к (ii) среднему значению из значений второго набора экспериментальной версии;
для каждой из контрольной и экспериментальной версии:
определение сервером соответствующего линеаризованного набора значений, причем значения в данном линеаризованном наборе представляют собой разницу между (i) значениями соответствующего первого набора и (ii) значениями соответствующего второго набора, которые взвешены значением линеаризации, причем значения линеаризованных наборов представляют собой значения линеаризованной пользовательской метрики; и
создание сервером соответствующего значения ОЕС на основе соответствующих линеаризованных наборов, причем разница между значениями ОЕС указывает на (i) степень изменения в пользовательских взаимодействиях между контрольной версией и экспериментальной версией и (ii) направлением изменения в пользовательских взаимодействиях между контрольной версией и экспериментальной версией, причем направление может быть положительным или отрицательным.
2. Способ по п. 1, в котором выбор значения линеаризации для линеаризованной пользовательской метрики представляет собой:
определение сервером одного из контрольного коэффициента и экспериментального коэффициента;
выбор сервером одного из контрольного коэффициента и экспериментального коэффициента в качестве значения линеаризации.
3. Способ по п. 1, в котором выбор значения линеаризации для линеаризованной пользовательской метрики представляет собой:
определение сервером интервала значения линеаризации, который содержит все значения между контрольным коэффициентом и экспериментальным коэффициентом включительно; и
выбор сервером любого значения и интервале значений линеаризации в качестве значения линеаризации.
4. Способ по п. 1, который далее включает в себя применение сервером проверки на статистическую значимость для определения уровня значимости разницы между значениями ОЕС.
5. Способ по п. 4, в котором проверка на статистическую значимость представляет собой одно из следующего:
бутстрэп-тест;
дельта-тест; и
т-тест.
6. Способ по п. 5, в котором проверка на статистическую значимость представляет собой т-тест, и причем способ дополнительно включает в себя:
определение сервером, для каждой из контрольной версии и экспериментальной версии, соответствующего набора значений с повышенной чувствительностью путем применения повышающего чувствительность алгоритма к соответствующему линеаризованному набору значений, и причем создание соответствующих значений ОЕС включает в себя:
создание соответствующих средних значений для значений соответствующих наборов с повышенной чувствительностью.
7. Способ по п. 1, который далее включает в себя выбор одной из контрольной версии и экспериментальной версии в качестве текущей версии исполняемого на компьютере сервиса на основе направления изменения во взаимодействиях пользователя из контрольной и экспериментальной версии.
8. Способ по п. 1, в котором одна из первой и второй пользовательской метрики представляет собой одно из:
число кликов пользователя;
число запросов пользователя; и
число сессий пользователя.
9. Способ по п. 1, в котором линеаризованная пользовательская метрика является комбинацией первой и второй пользовательских метрик в соответствии с:
L(ui)=Х(ui)-к*Y(ui)
где: L - линеаризованная пользовательская метрика, X - первая пользовательская метрика, Y - вторая пользовательская метрика, и к - значение линеаризации.
10. Сервер для создания значений общего критерия оценки (ОЕС) для использования во время тестирования контроль/эксперимент исполняемого на компьютере сервиса для выбора текущей версии исполняемого на компьютере сервиса между контрольной версией и экспериментальной версией:
для каждой из контрольной и экспериментальной версии:
получение соответствующего набора данных, указывающих на пользовательские взаимодействия с соответствующей одной из контрольной и экспериментальной версий;
определение соответствующего первого набора значений на основе соответствующего набора данных, которые являются значениями первой пользовательской метрики; и
определение соответствующего второго набора значений на основе соответствующего набора данных, которые являются значениями второй пользовательской метрики;
выбор значений линеаризации для линеаризованной пользовательской метрики, которая является линейной комбинацией первой и второй пользовательских метрик, и ОЕС основан на линеаризованной пользовательской метрике, значение линеаризации находится между коэффициентом контроля и коэффициентом эксперимента,
контрольный коэффициент является отношением (i) среднего значения из значений первого набора контрольной версии к (ii) среднему значению из значений второго набора контрольной версии,
экспериментальный коэффициент является отношением (i) среднего значения из значений первого набора экспериментальной версии к (ii) среднему значению из значений второго набора экспериментальной версии.
для каждой из контрольной и экспериментальной версии:
определение соответствующего линеаризованного набора значений, причем значения в данном линеаризованном наборе представляют собой разницу между (i) значениями соответствующего первого набора и (ii) значениями соответствующего второго набора, которые взвешены значением линеаризации, причем значения линеаризованных наборов представляют собой значения линеаризованной пользовательской метрики; и
создание соответствующего значения ОЕС на основе соответствующих линеаризованных наборов, причем разница между значениями ОЕС указывает на (i) степень изменения в пользовательских взаимодействиях между контрольной версией и экспериментальной версией и (ii) направлением изменения в пользовательских взаимодействиях между контрольной версией и экспериментальной версией, причем направление может быть положительным или отрицательным.
11. Сервер по п. 10, который выполнен с возможностью осуществлять выбор значения линеаризации для линеаризованной пользовательской метрики, причем сервер далее выполнен с возможностью осуществлять:
определение одного из контрольного коэффициента и экспериментального коэффициента;
выбор одного из контрольного коэффициента и экспериментального коэффициента в качестве значения линеаризации.
12. Сервер по п. 10, который выполнен с возможностью осуществлять выбор значения линеаризации для линеаризованной пользовательской метрики, причем сервер выполнен с возможностью осуществлять:
определение интервала значения линеаризации, который содержит все значения между контрольным коэффициентом и экспериментальным коэффициентом включительно; и
выбор любого значения и интервале значений линеаризации в качестве значения линеаризации.
13. Сервер по п. 10, который далее выполнен с возможностью осуществлять применение проверки на статистическую значимость для определения уровня значимости разницы между значениями ОЕС.
14. Сервер по п. 13, в котором проверка на статистическую значимость представляет собой одно из следующего:
бутстрэп-тест;
дельта-тест; и
т-тест.
15. Сервер по п. 14, в котором проверка на статистическую значимость представляет собой т-тест, и причем сервер дополнительно выполнен с возможностью осуществлять:
определение, для каждой из контрольной версии и экспериментальной версии, соответствующего набора значений с повышенной чувствительностью путем применения повышающего чувствительность алгоритма к соответствующему линеаризованному набору значений, и причем сервер выполнен с возможностью осуществлять создание соответствующих значений ОЕС и сервер выполнен с возможностью осуществлять:
создание соответствующих средних значений для значений соответствующих наборов с повышенной чувствительностью.
16. Сервер по п. 10, который далее выполнен с возможностью осуществлять выбор одной из контрольной версии и экспериментальной версии в качестве текущей версии исполняемого на компьютере сервиса на основе направления изменения во взаимодействиях пользователя из контрольной и экспериментальной версии.
17. Сервер по п. 10, в котором одна из первой и второй пользовательской метрики представляет собой одно из:
число кликов пользователя;
число запросов пользователя; и
число сессий пользователя.
18. Сервер по п. 10, в котором линеаризованная пользовательская метрика является комбинацией первой и второй пользовательских метрик в соответствии с:
L(ui)=Х(ui)-к*Y(ui)
где: L - линеаризованная пользовательская метрика, X - первая пользовательская метрика, Y - вторая пользовательская метрика, и к - значение линеаризации.
RU2017144042A 2017-12-15 2017-12-15 Способы и системы для создания значений общего критерия оценки RU2699573C2 (ru)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2017144042A RU2699573C2 (ru) 2017-12-15 2017-12-15 Способы и системы для создания значений общего критерия оценки
US16/011,247 US10949499B2 (en) 2017-12-15 2018-06-18 Methods and systems for generating values of overall evaluation criterion

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2017144042A RU2699573C2 (ru) 2017-12-15 2017-12-15 Способы и системы для создания значений общего критерия оценки

Publications (3)

Publication Number Publication Date
RU2017144042A true RU2017144042A (ru) 2019-06-17
RU2017144042A3 RU2017144042A3 (ru) 2019-06-17
RU2699573C2 RU2699573C2 (ru) 2019-09-06

Family

ID=66815162

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2017144042A RU2699573C2 (ru) 2017-12-15 2017-12-15 Способы и системы для создания значений общего критерия оценки

Country Status (2)

Country Link
US (1) US10949499B2 (ru)
RU (1) RU2699573C2 (ru)

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020174222A1 (en) 2000-10-27 2002-11-21 Cox Earl D. Behavior experts in e-service management
US20020169730A1 (en) 2001-08-29 2002-11-14 Emmanuel Lazaridis Methods for classifying objects and identifying latent classes
US7617115B2 (en) 2003-02-11 2009-11-10 Cerner Innovation, Inc. System and method for risk-adjusting indicators of access and utilization based on metrics of distance and time
US20050192824A1 (en) 2003-07-25 2005-09-01 Enkata Technologies System and method for determining a behavior of a classifier for use with business data
JP4550882B2 (ja) 2004-11-25 2010-09-22 シャープ株式会社 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム
JP5175754B2 (ja) 2009-02-04 2013-04-03 株式会社東芝 線形変換行列算出装置、その方法、及び、そのプログラム
US9201572B2 (en) * 2013-03-12 2015-12-01 Cbs Interactive, Inc. A/B test configuration environment
US9003076B2 (en) 2013-05-29 2015-04-07 International Business Machines Corporation Identifying anomalies in original metrics of a system
US20150046251A1 (en) * 2013-08-08 2015-02-12 Monica C. Smith Methods and systems for analyzing key performance metrics
US9256693B2 (en) 2014-01-08 2016-02-09 Rovi Technologies Corporation Recommendation system with metric transformation
WO2015112162A1 (en) 2014-01-24 2015-07-30 Hewlett-Packard Development Company, L.P. Identifying deviations in data
US20150227962A1 (en) * 2014-02-11 2015-08-13 Sears Brands, L.L.C. A/b testing and visualization
RU2611961C2 (ru) * 2014-11-14 2017-03-01 Общество С Ограниченной Ответственностью "Яндекс" Способ и система регрессионного тестирования функциональности веб-страницы, машиночитаемый носитель информации
US20160253311A1 (en) * 2015-02-27 2016-09-01 Linkedln Corporation Most impactful experiments
RU2640637C2 (ru) 2015-10-13 2018-01-10 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер проведения контролируемого эксперимента с использованием прогнозирования будущего пользовательского поведения
US20180165723A1 (en) * 2016-12-12 2018-06-14 Chatalytic, Inc. Measuring and optimizing natural language interactions
US20200104340A1 (en) * 2018-09-28 2020-04-02 Microsoft Technology Licensing, Llc A/b testing using quantile metrics

Also Published As

Publication number Publication date
RU2699573C2 (ru) 2019-09-06
RU2017144042A3 (ru) 2019-06-17
US20190188244A1 (en) 2019-06-20
US10949499B2 (en) 2021-03-16

Similar Documents

Publication Publication Date Title
US11157347B2 (en) Detection of resource bottlenecks in user devices using artificial intelligence and causal graphs
JP4946131B2 (ja) 燃料電池の特性測定装置及び方法
US20190189174A1 (en) Improved computational accuracy in a crossbar array
US20150074198A1 (en) Social network grouping method and system, and computer storage medium
JP2014531901A5 (ru)
US10796038B2 (en) Estimating think times
US20150033239A1 (en) Prediction of impact of workload migration
KR101904436B1 (ko) 깨진 네트워크 연결들의 기계 학습 기반 식별
JP2019507454A5 (ru)
CN105511953B (zh) 云环境下的虚拟机负载评估系统、方法以及服务节点
CN106330754B (zh) 访问请求的控制方法和装置
Brouwer et al. Uncertainty analysis of finite length measurement signals
Ahmad et al. Measuring the scalability of cloud-based software services
JP7097649B2 (ja) フィラメント電流制御方法及び装置
RU2017144042A (ru) Способы и системы для создания значений общего критерия оценки
KR20190048840A (ko) 자동으로 최적의 통계 모델을 결정하는 방법 및 그 장치
CN110390160B (zh) 一种时序信号的周期检测方法、装置及相关设备
Pei et al. Dynamic random testing strategy for test case optimization in cloud environment
WO2018014631A1 (zh) 一种峰值功率、峰均值功率比的确定方法及装置
CN112506751A (zh) 一种服务器整机性能的对比测试方法、装置、设备及介质
Awad et al. On the predictive properties of performance models derived through input-output relationships
CN110825583A (zh) 一种针对云数据中心多指标融合的能效定性评估技术
US9690930B1 (en) Detecting periodicity in a stream of events
CN110276514A (zh) 业务相关因素的评估方法、装置及设备
TWI592810B (zh) 衡量二元資料於時間等級的群聚級別的無母數分析方法