RU2017140974A

RU2017140974A - Способ и сервер преобразования значения категориального фактора в его числовое представление

Info

Publication number: RU2017140974A
Application number: RU2017140974A
Authority: RU
Inventors: Андрей Владимирович ГУЛИН
Original assignee: Общество С Ограниченной Ответственностью "Яндекс"
Priority date: 2017-11-24
Filing date: 2017-11-24
Publication date: 2019-05-24
Also published as: US20190164060A1; RU2017140974A3; RU2693324C2; US11256991B2

Claims

1. Способ преобразования значения категориального значения фактора в его числовое представление, категориальный фактор связан с обучающих объектом, который используется для обучения алгоритма машинного обучения, выполняемого системой машинного обучения, для прогнозирования целевого значения объекта фазы использования, способ включающий в себя:

получение доступа со стороны постоянного машиночитаемого носителя системы машинного обучения к набору обучающих объектов, причем каждый обучающий объект из набора обучающих объектов содержит документ и индикатор события, связанный с документом, причем каждый документ связан с категориальным фактором;

создание набора моделей для MLA, причем каждая модель из набора моделей основана на ансамбле деревьев решений; для каждой модели из набора моделей:

организация набора обучающих объектов в соответствующий упорядоченный список обучающих объектов, причем соответствующий упорядоченный список обучающих объектов организован таким образом, что для каждого обучающего объекта в соответствующем упорядоченном списке обучающих объектов существует по меньшей мере один из:

(i) предыдущий обучающий объект, который находится до данного обучающего объекта и

(ii) последующий обучающий объект, который находится после данного обучающего объекта;

при создании данной итерации дерева решений в данном ансамбле деревьев решений:

выбор одной модели из набора моделей и соответствующего упорядоченного списка;

создание структуры дерева решений с помощью одной модели из набора моделей;

при обработке данного категориального фактора с помощью структуры дерева решений, причем данный категориальный фактор, связанный с данным обучающим объектом, причем данный обучающий объект обладает по меньшей мере одним предыдущим обучающим объектом в соответствующем упорядоченном списке обучающих объектов, создание его числового представления, причем создание основывается на:

(i) числе общих вхождений по меньшей мере одного предыдущего обучающего объекта с тем же самым значением категориального фактора в соответствующем упорядоченном списке; и

(ii) числе заранее определенных результатов событий, связанных с по меньшей мере одним предыдущим обучающим объектом, который обладает тем же самым значением категориального фактора в соответствующем упорядоченном списке.

2. Способ по п. 1, в котором создание включает в себя применение формулы:

,

где Number_OCCURENCEs число общих вхождений по меньшей мере одного предыдущего обучающего объекта с тем же самым значением категориального фактора; и

Number_WINs число заранее определенных результатов событий, связанных с по меньшей мере одним предыдущим обучающим объектом, который обладает тем же самым значением категориального фактора.

3. Способ по п. 1, в котором создание включает в себя применение формулы:

где:

Number_OCCURENCEs число общих вхождений по меньшей мере одного предыдущего обучающего объекта с тем же самым категориальным фактором; и

Number_WINs число заранее определенных результатов событий, связанных с по меньшей мере одним предыдущим обучающим объектом, который обладает тем же самым категориальным фактором; и

R_constant является заранее определенным значением.

4. Способ по п. 1, в котором данный категориальный фактор является набором категориальных факторов, который включает в себя по меньшей мере первый категориальный фактор и второй категориальный фактор, причем создание их числового представления включает в себя:

(i) использование числа общих вхождений по меньшей мере одного предыдущего обучающего объекта с тем же самым значением категориального фактора:

число общих вхождений по меньшей мере одного предыдущего обучающего объекта, обладающего как первым значением категориального фактора, так и вторым значением категориального фактора в соответствующем упорядоченном списке; и

(ii) использование в качестве числа заранее определенных результатов событий, связанных с по меньшей мере одним предыдущим обучающим объектом, который обладает тем же самым значением категориального фактора:

числа заранее определенных результатов событий, связанных с по меньшей мере одним предыдущим обучающим объектом, обладающим как первым значением категориального фактора, так и вторым значением категориального фактора.

5. Способ по п. 4, создание числового представления включает в себя применение формулы:

где

(i) Number_WINs(F1 and F2) is - число общих вхождений по меньшей мере одного предыдущего обучающего объекта с тем же самым набором значений категориальных факторов; и

(ii) Number_OCCURENCEs(F1 and F2) is the - число заранее определенных результатов событий, связанных с по меньшей мере одним предыдущим обучающим объектом, который обладает тем же самым набором значений категориальных факторов.

6. Способ по п. 1, в котором индикатор события обладает заранее определенным значением, и это заранее определенное значение является одним из положительного результата или отрицательного результата.

7. Способ по п. 1, в котором организация набора обучающих объектов в упорядоченный список обучающих объектов выполняется в момент времени до создания числового значения.

8. Способ по п. 1, в котором обучающие объекты связаны с присущим им временным порядком, и причем организация набора обучающих объектов в упорядоченный список обучающих объектов включает в себя организацию обучающих объектов в соответствии с временным порядком.

9. Способ по п. 1, в котором обучающие объекты не связаны с присущим им временным порядком, и причем организация набора обучающих объектов в упорядоченный список обучающих объектов включает в себя организацию обучающих объектов в соответствии с заранее определенным правилом.

10. Способ по п. 1, в котором обучающие объекты не связаны с присущим им временным порядком, и причем организация набора обучающих объектов в упорядоченный список обучающих объектов включает в себя создание случайного порядка обучающих объектов, который будет использован в качестве упорядоченного списка.

11. Способ по п. 1, который далее включает в себя использование структуры дерева решений для других моделей из набора моделей для данной итерации дерева решений.

12. Способ по п. 11, который далее включает в себя заполнение каждой из набора моделей с помощью набора обучающих объектов, причем значения категориальных факторов документов преобразованы в свои числовые представления с помощью соответствующего упорядоченного списка обучающих объектов.

13. Способ по п. 12, в котором набор моделей включает в себя набор прото-моделей, и в котором набор моделей далее включает в себя итоговую модель, и в котором способ далее включает в себя:

на каждой итерации обучения, выбор наиболее хорошо работающей модели из набора прото-моделей, и

использование наиболее хорошо работающей модели из набора прото-моделей для создания дерева решений итоговой модели для итерации обучения.

14. Способ по п. 13, способ далее включает в себя определение наилучшей работающей из набора прото-моделей путем применения алгоритма проверки.

15. Способ по п. 14, в котором алгоритм проверки учитывает работу данной итерации каждой из набора моделей и предыдущих деревьев решений в соответствующей модели из набора моделей.

16. Способ по п. 12, в котором использование различных соответствующих упорядоченных наборов приводит к тому, что значения в листьях разных моделей из набора моделей по меньшей мере частично отличаются.

17. Способ по п. 16, в котором использование набора других моделей со связанными соответствующими упорядоченными списками приводит к снижению эффекта переобучения во время обучения.

18. Способ по п. 17, в котором любой из упорядоченных списков отличается от других из упорядоченных списков.

19. Способ преобразования значения категориального значения фактора в его числовое представление, категориальный фактор связан с обучающих объектом, который используется для обучения алгоритма машинного обучения, выполняемого электронным устройством, для прогнозирования целевого значения объекта фазы использования, способ, включающий в себя:

при обработке данного категориального фактора с помощью структуры дерева решений, для данного категориального фактора, причем данный категориальный фактор, связанный с данным обучающим объектом, причем данный обучающий объект обладает по меньшей мере одним предыдущим обучающим объектом в соответствующем упорядоченном списке обучающих объектов, создание его числового представления, причем создание включает в себя вычисление функции с помощью формулы:

f (Number_WINs_PAST, Number_Occurence_PAST)

где:

Number_WINs_PAST - число заранее определенных результатов событий, связанных с по меньшей мере одним предыдущим обучающим объектом, который обладает теми же самыми значениями категориального фактора в соответствующем упорядоченном списке; и

Number_Occurence_PAST - число общих вхождений по меньшей мере одного предыдущего обучающего объекта с тем же самым значением категориального фактора в соответствующем упорядоченном списке.

20. Сервер, выполненный с возможностью осуществлять алгоритм машинного обучения (MLA), который основан на прогностической модели дерева решений, основанной на дереве решений, причем дерево решений предназначено для обработки значения категориального фактора путем преобразования его в его числовое представление, категориальный фактор связан с обучающим объектом, используемым для обучения MLA, причем MLA используется сервером для прогноза целевого значения объекта фазы использования, и сервер включает в себя:

постоянный носитель компьютерной информации;

процессор, связанный постоянным машиночитаемым носителем, процессор выполнен с возможностью осуществлять:

создание набора моделей для MLA, причем каждая модель из набора моделей основана на ансамбле деревьев решений; для создания, процессор далее выполнен с возможностью осуществлять, для каждой модели из набора моделей:

организацию набора обучающих объектов в соответствующий упорядоченный список обучающих объектов, причем соответствующий упорядоченный список обучающих объектов организован таким образом, что для каждого обучающего объекта в соответствующем упорядоченном списке обучающих объектов существует по меньшей мере один из:

при создании данной итерации дерева решений в данном ансамбле деревьев решений, процессор выполнен с возможностью осуществлять:

при обработке данного категориального фактора с помощью структуры дерева решений, для данного категориального фактора, причем данный категориальный фактор, связанный с данным обучающим объектом, причем данный обучающий объект обладает по меньшей мере одним предыдущим обучающим объектом в соответствующем упорядоченном списке обучающих объектов, создание его числового представления, причем создание основывается на:

(i) числе общих вхождений по меньшей мере одного предыдущего обучающего объекта с тем же самым значением категориального фактора; и

(ii) числе заранее определенных результатов событий, связанных с по меньшей мере одним предыдущим обучающим объектом, который обладает тем же самым значением категориального фактора.