RU2015141339A - Способ (варианты) и система (варианты) создания модели прогнозирования и определения точности модели прогнозирования - Google Patents

Способ (варианты) и система (варианты) создания модели прогнозирования и определения точности модели прогнозирования Download PDF

Info

Publication number
RU2015141339A
RU2015141339A RU2015141339A RU2015141339A RU2015141339A RU 2015141339 A RU2015141339 A RU 2015141339A RU 2015141339 A RU2015141339 A RU 2015141339A RU 2015141339 A RU2015141339 A RU 2015141339A RU 2015141339 A RU2015141339 A RU 2015141339A
Authority
RU
Russia
Prior art keywords
decision tree
sheet
processor
forecasting model
interest
Prior art date
Application number
RU2015141339A
Other languages
English (en)
Inventor
Андрей Владимирович ГУЛИН
Константин Вячеславович Воронцов
Евгений Андреевич Соколов
Игорь Евгеньевич Кураленок
Original Assignee
Общество С Ограниченной Ответственностью "Яндекс"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество С Ограниченной Ответственностью "Яндекс" filed Critical Общество С Ограниченной Ответственностью "Яндекс"
Priority to RU2015141339A priority Critical patent/RU2015141339A/ru
Publication of RU2015141339A publication Critical patent/RU2015141339A/ru

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Claims (85)

1. Способ определения параметра точности обученной модели прогнозирования в виде дерева принятия решений, способ выполняется в компьютерной системе машинного обучения; способ включает в себя:
доступ, с постоянного машиночитаемого носителя системы машинного обучения, к набору обучающих объектов, причем каждый обучающий объект из набора обучающих объектов включает в себя признаки и параметр интереса;
создание процессором системы машинного обучения обученной модели прогнозирования в виде дерева принятия решений по меньшей мере частично на основе набора обучающих объектов, причем каждый обучающий объект из набора обучающих объектов включает в себя признаки и параметр интереса, а обученная модель прогнозирования в виде дерева принятия решений включает в себя узлы, связанные с факторами, и листы, связанные с параметрами интереса обучающих объектов из набора обучающих объектов, и связь между листами и параметрами интереса была определена с помощью выполненного процессором системы машинного обучения сравнения по меньшей мере двух из факторов и признаков обучающих объектов из набора обучающих объектов;
отправку команды процессору системы машинного обучения на выполнение:
определения процессором числа обучающих объектов, связанных с данным листом (N);
определения процессором параметра точности листа на основе (i) параметров интереса, связанных с данным листом и (ii) числа параметров интереса, связанных с данным листом; и
определения процессором параметра точности обученной модели прогнозирования в виде дерева принятия решений на основе определенного параметра точности листа.
2. Способ определения параметра точности обученной модели прогнозирования в виде дерева принятия решений, способ выполняется в компьютерной системе машинного обучения; способ включает в себя:
доступ, с постоянного машиночитаемого носителя, к обученной модели прогнозирования в виде дерева принятия решений, созданной по меньшей мере частично на основе набора обучающих объектов, причем каждый обучающий объект из набора обучающих объектов включает в себя признаки и параметр интереса, а обученная модель прогнозирования в виде дерева принятия решений включает в себя узлы, связанные с факторами, и листы, связанные с параметрами интереса обучающих объектов из набора обучающих объектов, и связь между листами и параметрами интереса была определена с помощью сравнения по меньшей мере двух из факторов и признаков обучающих объектов из набора обучающих объектов;
определение процессором числа обучающих объектов, связанных с данным листом (N);
определение процессором параметра точности листа на основе (i) параметров интереса, связанных с данным листом и (ii) числа параметров интереса, связанных с данным листом; и
определение процессором параметра точности обученной модели прогнозирования в виде дерева принятия решений на основе определенного параметра точности листа.
3. Способ по п. 2, в котором число обучающих объектов, связанных с данным листом, равно числу параметров интереса, связанных с данным листом.
4. Способ по п. 2, в котором при определении процессором параметра точности листа используют весовую функцию, нелинейно зависимую от числа обучающих объектов, связанных с данным листом.
5. Способ по п. 4, в котором весовую функцию определяют в соответствии со следующей формулой:
log(Nj+1),
где Nj является числом параметров интереса, связанных с j-тым листом.
6. Способ по п. 4, в котором определение процессором параметра точности листа выполняют на основе (i) значения весовой функции и (ii) значений параметров интереса, связанных с данным листом.
7. Способ по п. 2, в котором при сравнении по меньшей мере двух факторов и признаков обучающих объектов выполняют сравнение процессором условий, связанных по меньшей мере с двумя факторами и по меньшей мере двумя значениями, связанными с признаками соответствующего обучающего объекта.
8. Способ по п. 2, в котором при определении процессором параметра точности обученной модели прогнозирования в виде дерева принятия решений, основанном на определенном параметре точности листа, выполняют определение общей ошибки листов в соответствии с формулой:
Figure 00000001
,
где M - число листов, Nj является числом параметров интереса, связанных с j-тым листом.
9. Способ по п. 2, в котором определение процессором параметра точности обученной модели прогнозирования в виде дерева принятия решений выполняют на основе множества определенных параметров точности листа, причем каждый из множества определенных параметров точности листа связан с отдельным листом.
10. Способ по п. 2, в котором признаки указывают по меньшей мере либо на число щелчков мышью, либо на число просмотров, либо на ранжирование документов, либо на URL, либо на доменное имя, либо на IP-адрес, либо на поисковой запрос, либо на ключевое слово.
11. Способ по п. 2, в котором параметр интереса указывает по меньшей мере либо на прогнозирование поискового результата, либо на вероятность щелчка мышью, либо на релевантность документа, либо на пользовательский интерес, либо на URL, либо на число щелчков мышью, либо на отношение количества щелчков мышью к количеству показов (CTR).
12. Способ по п. 2, в котором параметр точности модели прогнозирования в виде дерева принятия решений показывает точность целевой функции, связанную с моделью прогнозирования в виде дерева принятия решений.
13. Способ по п. 2, в котором каждый из факторов связан либо с (i) условием, применимым к бинарному признаку, либо с (ii) условием, применимым к численному признаку либо с (iii) условием, применимым к категориальному признаку.
14. Способ создания обученной модели прогнозирования в виде дерева принятия решений, способ выполняется в компьютерной системе машинного обучения; способ включает в себя:
осуществление доступа из постоянного машиночитаемого носителя к набору факторов;
идентификацию процессором из набора факторов фактора, связанного с наилучшим параметром точности предварительно обученной модели прогнозирования в виде дерева принятия решений, для данного положения узла, связанного с фактором в предварительно обученной модели прогнозирования в виде дерева принятия решений, причем наилучший параметр точности предварительно обученной модели прогнозирования в виде дерева принятия решений выбирается из множества параметров точности множества предварительных моделей прогнозирования в виде дерева принятия решений, причем множество параметров точности множества предварительных моделей прогнозирования в виде дерева принятия решений было создано в соответствии со способом по п. 2;
связывание процессором фактора с данным положением узла создающейся обученной модели прогнозирования в виде дерева принятия решений; и
создание процессором обученной модели прогнозирования в виде дерева принятия решений, причем обученная модель прогнозирования в виде дерева принятия решений включает в себя узел, связанный с фактором, для данного положения.
15. Способ по п. 14, в котором каждый из множества параметров точности связан с соответствующей моделью из множества предварительных моделей прогнозирования в виде дерева принятия решений.
16. Способ по п. 14, в котором дополнительно выполняют:
идентификацию процессором другого фактора из набора факторов, причем этот другой фактор связан с наилучшим параметром точности другой предварительно обученной модели прогнозирования в виде дерева принятия решений для другого данного положения другого узла, связанного с другим фактором в другой предварительно обученной модели прогнозирования в виде дерева принятия решений; и
связывание процессором другого фактора с другим данным положением другого узла создающейся обученной модели прогнозирования в виде дерева принятия решений.
17. Способ по п. 16, в котором обученная модель прогнозирования в виде дерева принятия решений дополнительно включает в себя другой узел, связанный с другим фактором, для другого данного положения.
18. Способ определения параметра точности обученной модели прогнозирования в виде дерева принятия решений, способ выполняется в компьютерной системе машинного обучения; способ включает в себя:
доступ, с постоянного машиночитаемого носителя, к набору обучающих объектов, причем каждый обучающий объект из набора обучающих объектов включает в себя признаки и параметр интереса;
создание процессором обученной модели прогнозирования в виде дерева принятия решений по меньшей мере частично на основе набора обучающих объектов, причем каждый обучающий объект из набора обучающих объектов включает в себя признаки и параметр интереса, а обученная модель прогнозирования в виде дерева принятия решений включает в себя узлы, связанные с факторами, и листы, связанные с параметрами интереса обучающих объектов из набора обучающих объектов, и связь между листами и параметрами интереса была определена с помощью сравнения по меньшей мере двух из факторов и признаков обучающих объектов из набора обучающих объектов;
определение процессором числа обучающих объектов, связанных с данным листом (N);
определение процессором параметра точности листа на основе (i) параметров интереса, связанных с данным листом и (ii) числа параметров интереса, связанных с данным листом; и
определение процессором параметра точности обученной модели прогнозирования в виде дерева принятия решений на основе определенного параметра точности листа.
19. Компьютерная система для определения параметра точности обученной модели прогнозирования в виде дерева принятия решений, система включает в себя:
постоянный машиночитаемый носитель;
процессор, выполненный с возможностью осуществлять:
доступ, с постоянного машиночитаемого носителя, к обученной модели прогнозирования в виде дерева принятия решений, созданной по меньшей мере частично на основе набора обучающих объектов, причем каждый обучающий объект из набора обучающих объектов включает в себя признаки и параметр интереса, а обученная модель прогнозирования в виде дерева принятия решений включает в себя узлы, связанные с факторами, и листы, связанные с параметрами интереса обучающих объектов из набора обучающих объектов, и связь между листами и параметрами интереса была определена с помощью сравнения по меньшей мере двух из факторов и признаков обучающих объектов из набора обучающих объектов;
определение процессором числа обучающих объектов, связанных с данным листом (N);
определение процессором параметра точности листа на основе (i) параметров интереса, связанных с данным листом и (ii) числа параметров интереса, связанных с данным листом; и
определение процессором параметра точности обученной модели прогнозирования в виде дерева принятия решений на основе определенного параметра точности листа.
20. Система по п. 19, в которой число обучающих объектов, связанных с данным листом, равно числу параметров интереса, связанных с данным листом.
21. Система по п. 19, в которой при определении параметра точности листа процессор выполнен с возможностью осуществлять использование весовой функции, нелинейно зависимой от числа обучающих объектов, связанных с данным листом.
22. Система по п. 21, в которой процессор выполнен с возможностью осуществлять определение весовой функции в соответствии со следующей формулой:
log(Nj+1),
где Nj является числом параметров интереса, связанных с j-тым листом.
23. Система по п. 21, в которой процессор выполнен с возможностью осуществлять определение параметра точности листа на основе (i) значения весовой функции и (ii) значениях параметров интереса, связанных с данным листом.
24. Система по п. 19, в которой при сравнении по меньшей мере двух факторов и признаков обучающих объектов процессор выполнен с возможностью осуществлять сравнение условий, связанных по меньшей мере с двумя факторами и по меньшей мере двумя значениями, связанными с признаками соответствующего обучающего объекта.
25. Система по п. 19, в которой при определении параметра точности обученной модели прогнозирования в виде дерева принятия решений, основанное на определенном параметре точности листа, включает в себя определение общей ошибки листов в соответствии с формулой:
Figure 00000002
,
где М - число листов, Nj является числом параметров интереса, связанных с j-тым листом.
26. Система по п. 19, в которой процессор выполнен с возможностью определения параметра точности обученной модели прогнозирования в виде дерева принятия решений на основе множества определенных параметров точности листа, причем каждый из множества определенных параметров точности листа связан с отдельным листом.
27. Система по п. 19, в которой признаки указывают по меньшей мере либо на число щелчков мышью, либо на число просмотров, либо на ранжирование документов, либо на URL, либо на доменное имя, либо на IP-адрес, либо на поисковой запрос, либо на ключевое слово.
28. Система по п. 19, в которой параметр интереса указывает по меньшей мере либо на прогнозирование поискового результата, либо на вероятность щелчка мышью, либо на релевантность документа, либо на пользовательский интерес, либо на URL, либо на число щелчков мышью, либо на отношение количества щелчков мышью к количеству показов (CTR).
29. Система по п. 19, в которой параметр точности модели прогнозирования в виде дерева принятия решений выполнен с возможностью показывать точность целевой функции, связанной с моделью прогнозирования в виде дерева принятия решений.
30. Система по п. 19, в которой каждый из факторов связан либо с (i) условием, применимым к бинарному признаку, либо с (ii) условием, применимым к численному признаку, либо с (iii) условием, применимым к категориальному признаку.
31. Компьютерная система для создания обученной модели прогнозирования в виде дерева принятия решений, система включает в себя:
постоянный машиночитаемый носитель;
процессор, выполненный с возможностью осуществлять:
осуществление доступа из постоянного машиночитаемого носителя к набору факторов;
идентификацию процессором из набора факторов фактора, связанного с наилучшим параметром точности предварительно обученной модели прогнозирования в виде дерева принятия решений, для данного положения узла, связанного с фактором в предварительно обученной модели прогнозирования в виде дерева принятия решений, причем наилучший параметр точности предварительно обученной модели прогнозирования в виде дерева принятия решений выбирается из множества параметров точности множества предварительных моделей прогнозирования в виде дерева принятия решений, причем множество параметров точности множества предварительных моделей прогнозирования в виде дерева принятия решений было создано в соответствии со способом по п. 2;
связывание процессором фактора с данным положением узла создающейся обученной модели прогнозирования в виде дерева принятия решений; и
создание процессором обученной модели прогнозирования в виде дерева принятия решений, причем обученная модель прогнозирования в виде дерева принятия решений включает в себя узел, связанный с фактором, для данного положения.
32. Система по п. 31, в которой каждый из множества параметров точности связан с соответствующей моделью из множества предварительных моделей прогнозирования в виде дерева принятия решений.
33. Система по п. 31, в которой процессор дополнительно выполнен с возможностью осуществлять:
идентификацию процессором другого фактора из набора факторов, причем этот другой фактор связан с наилучшим параметром точности другой предварительно обученной модели прогнозирования в виде дерева принятия решений для другого данного положения другого узла, связанного с другим фактором в другой предварительно обученной модели прогнозирования в виде дерева принятия решений; и
и связывание процессором другого фактора с другим данным положением другого узла создающейся обученной модели прогнозирования в виде дерева принятия решений.
34. Система по п. 33, в которой обученная модель прогнозирования в виде дерева принятия решений дополнительно включает в себя другой узел, связанный с другим фактором, для другого данного положения.
35. Компьютерная система для определения параметра точности обученной модели прогнозирования в виде дерева принятия решений, система включает в себя:
постоянный машиночитаемый носитель;
процессор, выполненный с возможностью осуществлять:
доступ, с постоянного машиночитаемого носителя, к набору обучающих объектов, причем каждый обучающий объект из набора обучающих объектов включает в себя признаки и параметр интереса;
создание процессором обученной модели прогнозирования в виде дерева принятия решений по меньшей мере частично на основе набора обучающих объектов, причем каждый обучающий объект из набора обучающих объектов включает в себя признаки и параметр интереса, а обученная модель прогнозирования в виде дерева принятия решений включает в себя узлы, связанные с факторами, и листы, связанные с параметрами интереса обучающих объектов из набора обучающих объектов, и связь между листами и параметрами интереса была определена с помощью сравнения по меньшей мере двух из факторов и признаков обучающих объектов из набора обучающих объектов;
определение процессором числа обучающих объектов, связанных с данным листом (N);
определение процессором параметра точности листа на основе (i) параметров интереса, связанных с данным листом и (ii) числа параметров интереса, связанных с данным листом; и
определение процессором параметра точности обученной модели прогнозирования в виде дерева принятия решений на основе определенного параметра точности листа.
RU2015141339A 2015-09-29 2015-09-29 Способ (варианты) и система (варианты) создания модели прогнозирования и определения точности модели прогнозирования RU2015141339A (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2015141339A RU2015141339A (ru) 2015-09-29 2015-09-29 Способ (варианты) и система (варианты) создания модели прогнозирования и определения точности модели прогнозирования

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2015141339A RU2015141339A (ru) 2015-09-29 2015-09-29 Способ (варианты) и система (варианты) создания модели прогнозирования и определения точности модели прогнозирования

Publications (1)

Publication Number Publication Date
RU2015141339A true RU2015141339A (ru) 2017-04-04

Family

ID=58505828

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2015141339A RU2015141339A (ru) 2015-09-29 2015-09-29 Способ (варианты) и система (варианты) создания модели прогнозирования и определения точности модели прогнозирования

Country Status (1)

Country Link
RU (1) RU2015141339A (ru)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2694001C2 (ru) * 2017-11-24 2019-07-08 Общество С Ограниченной Ответственностью "Яндекс" Способ и система создания параметра качества прогноза для прогностической модели, выполняемой в алгоритме машинного обучения
US10387801B2 (en) 2015-09-29 2019-08-20 Yandex Europe Ag Method of and system for generating a prediction model and determining an accuracy of a prediction model
US11256991B2 (en) 2017-11-24 2022-02-22 Yandex Europe Ag Method of and server for converting a categorical feature value into a numeric representation thereof
US11995519B2 (en) 2017-11-24 2024-05-28 Direct Cursus Technology L.L.C Method of and server for converting categorical feature value into a numeric representation thereof and for generating a split value for the categorical feature

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10387801B2 (en) 2015-09-29 2019-08-20 Yandex Europe Ag Method of and system for generating a prediction model and determining an accuracy of a prediction model
US11341419B2 (en) 2015-09-29 2022-05-24 Yandex Europe Ag Method of and system for generating a prediction model and determining an accuracy of a prediction model
RU2694001C2 (ru) * 2017-11-24 2019-07-08 Общество С Ограниченной Ответственностью "Яндекс" Способ и система создания параметра качества прогноза для прогностической модели, выполняемой в алгоритме машинного обучения
US11256991B2 (en) 2017-11-24 2022-02-22 Yandex Europe Ag Method of and server for converting a categorical feature value into a numeric representation thereof
US11995519B2 (en) 2017-11-24 2024-05-28 Direct Cursus Technology L.L.C Method of and server for converting categorical feature value into a numeric representation thereof and for generating a split value for the categorical feature

Similar Documents

Publication Publication Date Title
RU2015141340A (ru) Способ (варианты) и система (варианты) создания модели прогнозирования и определения точности модели прогнозирования
US9106698B2 (en) Method and server for intelligent categorization of bookmarks
JP6073345B2 (ja) 検索結果をランク付けする方法および装置ならびに検索方法および装置
RU2016145396A (ru) Способ и устройство извлечения тематических предложений веб-страниц
WO2021051518A1 (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN104298776B (zh) 基于lda模型的搜索引擎结果优化系统
Joho et al. Overview of NTCIR-11 Temporal Information Access (Temporalia) Task.
US20160078364A1 (en) Computer-Implemented Identification of Related Items
US20210125108A1 (en) Training a ranking model
US9734207B2 (en) Entity resolution techniques and systems
US20110307432A1 (en) Relevance for name segment searches
US9286379B2 (en) Document quality measurement
RU2017111480A (ru) Способ и система ранжирования множества документов на странице результатов поиска
KR101220557B1 (ko) 사람의 활동 지식 데이터베이스를 이용한 모바일 어플리케이션 검색 방법 및 시스템
RU2015141339A (ru) Способ (варианты) и система (варианты) создания модели прогнозирования и определения точности модели прогнозирования
US20120233096A1 (en) Optimizing an index of web documents
WO2011134141A1 (en) Method of extracting named entity
CN115796181A (zh) 一种针对化工领域的文本关系抽取方法
Li et al. Deep learning powered in-session contextual ranking using clickthrough data
US20190244094A1 (en) Machine learning driven data management
RU2018122689A (ru) Способ и система выбора для ранжирования поисковых результатов с помощью алгоритма машинного обучения
US20200192961A1 (en) Method of and system for generating feature for ranking document
RU2019111281A (ru) Способ и сервер для повторного обучения алгоритма машинного обучения
CN103744958A (zh) 一种基于分布式计算的网页分类算法

Legal Events

Date Code Title Description
FA92 Acknowledgement of application withdrawn (lack of supplementary materials submitted)

Effective date: 20170710