RU2015141339A - Способ (варианты) и система (варианты) создания модели прогнозирования и определения точности модели прогнозирования - Google Patents
Способ (варианты) и система (варианты) создания модели прогнозирования и определения точности модели прогнозирования Download PDFInfo
- Publication number
- RU2015141339A RU2015141339A RU2015141339A RU2015141339A RU2015141339A RU 2015141339 A RU2015141339 A RU 2015141339A RU 2015141339 A RU2015141339 A RU 2015141339A RU 2015141339 A RU2015141339 A RU 2015141339A RU 2015141339 A RU2015141339 A RU 2015141339A
- Authority
- RU
- Russia
- Prior art keywords
- decision tree
- sheet
- processor
- forecasting model
- interest
- Prior art date
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Claims (85)
1. Способ определения параметра точности обученной модели прогнозирования в виде дерева принятия решений, способ выполняется в компьютерной системе машинного обучения; способ включает в себя:
доступ, с постоянного машиночитаемого носителя системы машинного обучения, к набору обучающих объектов, причем каждый обучающий объект из набора обучающих объектов включает в себя признаки и параметр интереса;
создание процессором системы машинного обучения обученной модели прогнозирования в виде дерева принятия решений по меньшей мере частично на основе набора обучающих объектов, причем каждый обучающий объект из набора обучающих объектов включает в себя признаки и параметр интереса, а обученная модель прогнозирования в виде дерева принятия решений включает в себя узлы, связанные с факторами, и листы, связанные с параметрами интереса обучающих объектов из набора обучающих объектов, и связь между листами и параметрами интереса была определена с помощью выполненного процессором системы машинного обучения сравнения по меньшей мере двух из факторов и признаков обучающих объектов из набора обучающих объектов;
отправку команды процессору системы машинного обучения на выполнение:
определения процессором числа обучающих объектов, связанных с данным листом (N);
определения процессором параметра точности листа на основе (i) параметров интереса, связанных с данным листом и (ii) числа параметров интереса, связанных с данным листом; и
определения процессором параметра точности обученной модели прогнозирования в виде дерева принятия решений на основе определенного параметра точности листа.
2. Способ определения параметра точности обученной модели прогнозирования в виде дерева принятия решений, способ выполняется в компьютерной системе машинного обучения; способ включает в себя:
доступ, с постоянного машиночитаемого носителя, к обученной модели прогнозирования в виде дерева принятия решений, созданной по меньшей мере частично на основе набора обучающих объектов, причем каждый обучающий объект из набора обучающих объектов включает в себя признаки и параметр интереса, а обученная модель прогнозирования в виде дерева принятия решений включает в себя узлы, связанные с факторами, и листы, связанные с параметрами интереса обучающих объектов из набора обучающих объектов, и связь между листами и параметрами интереса была определена с помощью сравнения по меньшей мере двух из факторов и признаков обучающих объектов из набора обучающих объектов;
определение процессором числа обучающих объектов, связанных с данным листом (N);
определение процессором параметра точности листа на основе (i) параметров интереса, связанных с данным листом и (ii) числа параметров интереса, связанных с данным листом; и
определение процессором параметра точности обученной модели прогнозирования в виде дерева принятия решений на основе определенного параметра точности листа.
3. Способ по п. 2, в котором число обучающих объектов, связанных с данным листом, равно числу параметров интереса, связанных с данным листом.
4. Способ по п. 2, в котором при определении процессором параметра точности листа используют весовую функцию, нелинейно зависимую от числа обучающих объектов, связанных с данным листом.
5. Способ по п. 4, в котором весовую функцию определяют в соответствии со следующей формулой:
log(Nj+1),
где Nj является числом параметров интереса, связанных с j-тым листом.
6. Способ по п. 4, в котором определение процессором параметра точности листа выполняют на основе (i) значения весовой функции и (ii) значений параметров интереса, связанных с данным листом.
7. Способ по п. 2, в котором при сравнении по меньшей мере двух факторов и признаков обучающих объектов выполняют сравнение процессором условий, связанных по меньшей мере с двумя факторами и по меньшей мере двумя значениями, связанными с признаками соответствующего обучающего объекта.
8. Способ по п. 2, в котором при определении процессором параметра точности обученной модели прогнозирования в виде дерева принятия решений, основанном на определенном параметре точности листа, выполняют определение общей ошибки листов в соответствии с формулой:
где M - число листов, Nj является числом параметров интереса, связанных с j-тым листом.
9. Способ по п. 2, в котором определение процессором параметра точности обученной модели прогнозирования в виде дерева принятия решений выполняют на основе множества определенных параметров точности листа, причем каждый из множества определенных параметров точности листа связан с отдельным листом.
10. Способ по п. 2, в котором признаки указывают по меньшей мере либо на число щелчков мышью, либо на число просмотров, либо на ранжирование документов, либо на URL, либо на доменное имя, либо на IP-адрес, либо на поисковой запрос, либо на ключевое слово.
11. Способ по п. 2, в котором параметр интереса указывает по меньшей мере либо на прогнозирование поискового результата, либо на вероятность щелчка мышью, либо на релевантность документа, либо на пользовательский интерес, либо на URL, либо на число щелчков мышью, либо на отношение количества щелчков мышью к количеству показов (CTR).
12. Способ по п. 2, в котором параметр точности модели прогнозирования в виде дерева принятия решений показывает точность целевой функции, связанную с моделью прогнозирования в виде дерева принятия решений.
13. Способ по п. 2, в котором каждый из факторов связан либо с (i) условием, применимым к бинарному признаку, либо с (ii) условием, применимым к численному признаку либо с (iii) условием, применимым к категориальному признаку.
14. Способ создания обученной модели прогнозирования в виде дерева принятия решений, способ выполняется в компьютерной системе машинного обучения; способ включает в себя:
осуществление доступа из постоянного машиночитаемого носителя к набору факторов;
идентификацию процессором из набора факторов фактора, связанного с наилучшим параметром точности предварительно обученной модели прогнозирования в виде дерева принятия решений, для данного положения узла, связанного с фактором в предварительно обученной модели прогнозирования в виде дерева принятия решений, причем наилучший параметр точности предварительно обученной модели прогнозирования в виде дерева принятия решений выбирается из множества параметров точности множества предварительных моделей прогнозирования в виде дерева принятия решений, причем множество параметров точности множества предварительных моделей прогнозирования в виде дерева принятия решений было создано в соответствии со способом по п. 2;
связывание процессором фактора с данным положением узла создающейся обученной модели прогнозирования в виде дерева принятия решений; и
создание процессором обученной модели прогнозирования в виде дерева принятия решений, причем обученная модель прогнозирования в виде дерева принятия решений включает в себя узел, связанный с фактором, для данного положения.
15. Способ по п. 14, в котором каждый из множества параметров точности связан с соответствующей моделью из множества предварительных моделей прогнозирования в виде дерева принятия решений.
16. Способ по п. 14, в котором дополнительно выполняют:
идентификацию процессором другого фактора из набора факторов, причем этот другой фактор связан с наилучшим параметром точности другой предварительно обученной модели прогнозирования в виде дерева принятия решений для другого данного положения другого узла, связанного с другим фактором в другой предварительно обученной модели прогнозирования в виде дерева принятия решений; и
связывание процессором другого фактора с другим данным положением другого узла создающейся обученной модели прогнозирования в виде дерева принятия решений.
17. Способ по п. 16, в котором обученная модель прогнозирования в виде дерева принятия решений дополнительно включает в себя другой узел, связанный с другим фактором, для другого данного положения.
18. Способ определения параметра точности обученной модели прогнозирования в виде дерева принятия решений, способ выполняется в компьютерной системе машинного обучения; способ включает в себя:
доступ, с постоянного машиночитаемого носителя, к набору обучающих объектов, причем каждый обучающий объект из набора обучающих объектов включает в себя признаки и параметр интереса;
создание процессором обученной модели прогнозирования в виде дерева принятия решений по меньшей мере частично на основе набора обучающих объектов, причем каждый обучающий объект из набора обучающих объектов включает в себя признаки и параметр интереса, а обученная модель прогнозирования в виде дерева принятия решений включает в себя узлы, связанные с факторами, и листы, связанные с параметрами интереса обучающих объектов из набора обучающих объектов, и связь между листами и параметрами интереса была определена с помощью сравнения по меньшей мере двух из факторов и признаков обучающих объектов из набора обучающих объектов;
определение процессором числа обучающих объектов, связанных с данным листом (N);
определение процессором параметра точности листа на основе (i) параметров интереса, связанных с данным листом и (ii) числа параметров интереса, связанных с данным листом; и
определение процессором параметра точности обученной модели прогнозирования в виде дерева принятия решений на основе определенного параметра точности листа.
19. Компьютерная система для определения параметра точности обученной модели прогнозирования в виде дерева принятия решений, система включает в себя:
постоянный машиночитаемый носитель;
процессор, выполненный с возможностью осуществлять:
доступ, с постоянного машиночитаемого носителя, к обученной модели прогнозирования в виде дерева принятия решений, созданной по меньшей мере частично на основе набора обучающих объектов, причем каждый обучающий объект из набора обучающих объектов включает в себя признаки и параметр интереса, а обученная модель прогнозирования в виде дерева принятия решений включает в себя узлы, связанные с факторами, и листы, связанные с параметрами интереса обучающих объектов из набора обучающих объектов, и связь между листами и параметрами интереса была определена с помощью сравнения по меньшей мере двух из факторов и признаков обучающих объектов из набора обучающих объектов;
определение процессором числа обучающих объектов, связанных с данным листом (N);
определение процессором параметра точности листа на основе (i) параметров интереса, связанных с данным листом и (ii) числа параметров интереса, связанных с данным листом; и
определение процессором параметра точности обученной модели прогнозирования в виде дерева принятия решений на основе определенного параметра точности листа.
20. Система по п. 19, в которой число обучающих объектов, связанных с данным листом, равно числу параметров интереса, связанных с данным листом.
21. Система по п. 19, в которой при определении параметра точности листа процессор выполнен с возможностью осуществлять использование весовой функции, нелинейно зависимой от числа обучающих объектов, связанных с данным листом.
22. Система по п. 21, в которой процессор выполнен с возможностью осуществлять определение весовой функции в соответствии со следующей формулой:
log(Nj+1),
где Nj является числом параметров интереса, связанных с j-тым листом.
23. Система по п. 21, в которой процессор выполнен с возможностью осуществлять определение параметра точности листа на основе (i) значения весовой функции и (ii) значениях параметров интереса, связанных с данным листом.
24. Система по п. 19, в которой при сравнении по меньшей мере двух факторов и признаков обучающих объектов процессор выполнен с возможностью осуществлять сравнение условий, связанных по меньшей мере с двумя факторами и по меньшей мере двумя значениями, связанными с признаками соответствующего обучающего объекта.
25. Система по п. 19, в которой при определении параметра точности обученной модели прогнозирования в виде дерева принятия решений, основанное на определенном параметре точности листа, включает в себя определение общей ошибки листов в соответствии с формулой:
где М - число листов, Nj является числом параметров интереса, связанных с j-тым листом.
26. Система по п. 19, в которой процессор выполнен с возможностью определения параметра точности обученной модели прогнозирования в виде дерева принятия решений на основе множества определенных параметров точности листа, причем каждый из множества определенных параметров точности листа связан с отдельным листом.
27. Система по п. 19, в которой признаки указывают по меньшей мере либо на число щелчков мышью, либо на число просмотров, либо на ранжирование документов, либо на URL, либо на доменное имя, либо на IP-адрес, либо на поисковой запрос, либо на ключевое слово.
28. Система по п. 19, в которой параметр интереса указывает по меньшей мере либо на прогнозирование поискового результата, либо на вероятность щелчка мышью, либо на релевантность документа, либо на пользовательский интерес, либо на URL, либо на число щелчков мышью, либо на отношение количества щелчков мышью к количеству показов (CTR).
29. Система по п. 19, в которой параметр точности модели прогнозирования в виде дерева принятия решений выполнен с возможностью показывать точность целевой функции, связанной с моделью прогнозирования в виде дерева принятия решений.
30. Система по п. 19, в которой каждый из факторов связан либо с (i) условием, применимым к бинарному признаку, либо с (ii) условием, применимым к численному признаку, либо с (iii) условием, применимым к категориальному признаку.
31. Компьютерная система для создания обученной модели прогнозирования в виде дерева принятия решений, система включает в себя:
постоянный машиночитаемый носитель;
процессор, выполненный с возможностью осуществлять:
осуществление доступа из постоянного машиночитаемого носителя к набору факторов;
идентификацию процессором из набора факторов фактора, связанного с наилучшим параметром точности предварительно обученной модели прогнозирования в виде дерева принятия решений, для данного положения узла, связанного с фактором в предварительно обученной модели прогнозирования в виде дерева принятия решений, причем наилучший параметр точности предварительно обученной модели прогнозирования в виде дерева принятия решений выбирается из множества параметров точности множества предварительных моделей прогнозирования в виде дерева принятия решений, причем множество параметров точности множества предварительных моделей прогнозирования в виде дерева принятия решений было создано в соответствии со способом по п. 2;
связывание процессором фактора с данным положением узла создающейся обученной модели прогнозирования в виде дерева принятия решений; и
создание процессором обученной модели прогнозирования в виде дерева принятия решений, причем обученная модель прогнозирования в виде дерева принятия решений включает в себя узел, связанный с фактором, для данного положения.
32. Система по п. 31, в которой каждый из множества параметров точности связан с соответствующей моделью из множества предварительных моделей прогнозирования в виде дерева принятия решений.
33. Система по п. 31, в которой процессор дополнительно выполнен с возможностью осуществлять:
идентификацию процессором другого фактора из набора факторов, причем этот другой фактор связан с наилучшим параметром точности другой предварительно обученной модели прогнозирования в виде дерева принятия решений для другого данного положения другого узла, связанного с другим фактором в другой предварительно обученной модели прогнозирования в виде дерева принятия решений; и
и связывание процессором другого фактора с другим данным положением другого узла создающейся обученной модели прогнозирования в виде дерева принятия решений.
34. Система по п. 33, в которой обученная модель прогнозирования в виде дерева принятия решений дополнительно включает в себя другой узел, связанный с другим фактором, для другого данного положения.
35. Компьютерная система для определения параметра точности обученной модели прогнозирования в виде дерева принятия решений, система включает в себя:
постоянный машиночитаемый носитель;
процессор, выполненный с возможностью осуществлять:
доступ, с постоянного машиночитаемого носителя, к набору обучающих объектов, причем каждый обучающий объект из набора обучающих объектов включает в себя признаки и параметр интереса;
создание процессором обученной модели прогнозирования в виде дерева принятия решений по меньшей мере частично на основе набора обучающих объектов, причем каждый обучающий объект из набора обучающих объектов включает в себя признаки и параметр интереса, а обученная модель прогнозирования в виде дерева принятия решений включает в себя узлы, связанные с факторами, и листы, связанные с параметрами интереса обучающих объектов из набора обучающих объектов, и связь между листами и параметрами интереса была определена с помощью сравнения по меньшей мере двух из факторов и признаков обучающих объектов из набора обучающих объектов;
определение процессором числа обучающих объектов, связанных с данным листом (N);
определение процессором параметра точности листа на основе (i) параметров интереса, связанных с данным листом и (ii) числа параметров интереса, связанных с данным листом; и
определение процессором параметра точности обученной модели прогнозирования в виде дерева принятия решений на основе определенного параметра точности листа.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2015141339A RU2015141339A (ru) | 2015-09-29 | 2015-09-29 | Способ (варианты) и система (варианты) создания модели прогнозирования и определения точности модели прогнозирования |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2015141339A RU2015141339A (ru) | 2015-09-29 | 2015-09-29 | Способ (варианты) и система (варианты) создания модели прогнозирования и определения точности модели прогнозирования |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2015141339A true RU2015141339A (ru) | 2017-04-04 |
Family
ID=58505828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2015141339A RU2015141339A (ru) | 2015-09-29 | 2015-09-29 | Способ (варианты) и система (варианты) создания модели прогнозирования и определения точности модели прогнозирования |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2015141339A (ru) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2694001C2 (ru) * | 2017-11-24 | 2019-07-08 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система создания параметра качества прогноза для прогностической модели, выполняемой в алгоритме машинного обучения |
US10387801B2 (en) | 2015-09-29 | 2019-08-20 | Yandex Europe Ag | Method of and system for generating a prediction model and determining an accuracy of a prediction model |
US11256991B2 (en) | 2017-11-24 | 2022-02-22 | Yandex Europe Ag | Method of and server for converting a categorical feature value into a numeric representation thereof |
US11995519B2 (en) | 2017-11-24 | 2024-05-28 | Direct Cursus Technology L.L.C | Method of and server for converting categorical feature value into a numeric representation thereof and for generating a split value for the categorical feature |
-
2015
- 2015-09-29 RU RU2015141339A patent/RU2015141339A/ru not_active Application Discontinuation
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10387801B2 (en) | 2015-09-29 | 2019-08-20 | Yandex Europe Ag | Method of and system for generating a prediction model and determining an accuracy of a prediction model |
US11341419B2 (en) | 2015-09-29 | 2022-05-24 | Yandex Europe Ag | Method of and system for generating a prediction model and determining an accuracy of a prediction model |
RU2694001C2 (ru) * | 2017-11-24 | 2019-07-08 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система создания параметра качества прогноза для прогностической модели, выполняемой в алгоритме машинного обучения |
US11256991B2 (en) | 2017-11-24 | 2022-02-22 | Yandex Europe Ag | Method of and server for converting a categorical feature value into a numeric representation thereof |
US11995519B2 (en) | 2017-11-24 | 2024-05-28 | Direct Cursus Technology L.L.C | Method of and server for converting categorical feature value into a numeric representation thereof and for generating a split value for the categorical feature |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2015141340A (ru) | Способ (варианты) и система (варианты) создания модели прогнозирования и определения точности модели прогнозирования | |
US9106698B2 (en) | Method and server for intelligent categorization of bookmarks | |
JP6073345B2 (ja) | 検索結果をランク付けする方法および装置ならびに検索方法および装置 | |
RU2016145396A (ru) | Способ и устройство извлечения тематических предложений веб-страниц | |
WO2021051518A1 (zh) | 基于神经网络模型的文本数据分类方法、装置及存储介质 | |
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
CN104298776B (zh) | 基于lda模型的搜索引擎结果优化系统 | |
Joho et al. | Overview of NTCIR-11 Temporal Information Access (Temporalia) Task. | |
US20160078364A1 (en) | Computer-Implemented Identification of Related Items | |
US20210125108A1 (en) | Training a ranking model | |
US9734207B2 (en) | Entity resolution techniques and systems | |
US20110307432A1 (en) | Relevance for name segment searches | |
US9286379B2 (en) | Document quality measurement | |
RU2017111480A (ru) | Способ и система ранжирования множества документов на странице результатов поиска | |
KR101220557B1 (ko) | 사람의 활동 지식 데이터베이스를 이용한 모바일 어플리케이션 검색 방법 및 시스템 | |
RU2015141339A (ru) | Способ (варианты) и система (варианты) создания модели прогнозирования и определения точности модели прогнозирования | |
US20120233096A1 (en) | Optimizing an index of web documents | |
WO2011134141A1 (en) | Method of extracting named entity | |
CN115796181A (zh) | 一种针对化工领域的文本关系抽取方法 | |
Li et al. | Deep learning powered in-session contextual ranking using clickthrough data | |
US20190244094A1 (en) | Machine learning driven data management | |
RU2018122689A (ru) | Способ и система выбора для ранжирования поисковых результатов с помощью алгоритма машинного обучения | |
US20200192961A1 (en) | Method of and system for generating feature for ranking document | |
RU2019111281A (ru) | Способ и сервер для повторного обучения алгоритма машинного обучения | |
CN103744958A (zh) | 一种基于分布式计算的网页分类算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FA92 | Acknowledgement of application withdrawn (lack of supplementary materials submitted) |
Effective date: 20170710 |