RU2017140973A

RU2017140973A - Способ и сервер для переобразования значения категориального фактора в его числовое представление и для создания разделяющего значения категориольного фактора

Info

Publication number: RU2017140973A
Application number: RU2017140973A
Authority: RU
Inventors: Андрей Владимирович ГУЛИН
Original assignee: Общество С Ограниченной Ответственностью "Яндекс"
Priority date: 2017-11-24
Filing date: 2017-11-24
Publication date: 2019-05-24
Also published as: RU2692048C2; RU2017140973A3; US20190164085A1; US11995519B2

Claims

1. Способ преобразования в числовое представление значения категориального фактора, который связан с обучающим объектом для обучения алгоритма машинного обучения (MLA), причем MLA использует модель, основанную на дерева решений, обладающую деревом решений, причем обучающий объект обрабатывается на узле данного уровня дерева решений, причем дерево решений обладает по меньшей мере одним предыдущим уровнем дерева решений, причем на по меньшей мере одном предыдущем уровне значение по меньшей мере одного категориального фактора - преобразовано в свое предыдущее числовое представление для по меньшей мере одного предыдущего уровня дерева решений,

причем алгоритм машинного обучения выполняется электронным устройством для прогнозирования объекта фазы использования, способ включает в себя

получение доступа со стороны постоянного машиночитаемого носителя системы машинного обучения к набору обучающих объектов,

причем каждый обучающий объект из набора обучающих объектов содержит документ и индикатор события, связанный с документом, причем каждый документ связан с категориальным фактором;

создание числового представления для значения категориального фактора путем:

извлечения предыдущего числового представления по меньшей мере одного значения категориального фактора для данного объекта из набора обучающих объектов на по меньшей мере одном предыдущем уровне дерева решений;

создания, для каждой комбинации из по меньшей мере одного предыдущего значения категориального фактора на по меньшей мере одном предыдущем уровне дерева решений и по меньшей мере некоторых значений категориальных факторов из набора обучающих объектов, текущего числового представления для данного уровня дерева решений,

создание осуществляется в процессе создания дерева решений.

2. Способ по п. 1, в котором набор обучающих объектов организован в упорядоченный список таким образом, что

для каждого обучающего объекта в упорядоченном списке обучающих объектов существует по меньшей мере одно из

(i) предыдущий обучающий объект, который находится до данного обучающего объекта и

(ii) последующий обучающий объект, который находится после данного обучающего объекта, и при этом

по меньшей мере некоторые из значений категориальных факторов являются значениями категориальных факторов, которые связаны с обучающими объектами, находящимися раньше в упорядоченном списке обучающих объектов.

3. Способ по п. 1, в котором создание выполняется только для тех предыдущих значений категориальных факторов, которые были созданы по меньшей мере на одном предыдущем уровне дерева решений.

4. Способ по п. 1, в котором создание выполняется только для тех предыдущих значений категориальных факторов, которые были созданы по меньшей мере на одном предыдущем уровне дерева решений и по меньшей мере на предыдущей итерации дерева решений.

5. Способ по п. 1, в котором индикатор события обладает заранее определенным значением, и это заранее определенное значение является одним из положительного результата или отрицательного результата.

6. Способ по п. 2, который далее включает в себя организацию набора обучающих объектов в упорядоченный список обучающих объектов.

7. Способ по п. 6, в котором организация набора обучающих объектов в упорядоченный список обучающих объектов выполняется в момент времени до создания числового значения.

8. Способ по п. 6, в котором организация набора обучающих объектов в упорядоченный список обучающих объектов включает в себя организацию множества наборов упорядоченных списков, и в котором способ далее включает в себя, до этапа создания числового значения, выбор одного из множества наборов упорядоченного списка.

9. Способ по п. 6, в котором обучающие объекты связаны с присущим им временным порядком, и причем организация набора обучающих объектов в упорядоченный список обучающих объектов включает в себя организацию обучающих объектов в соответствии с временным порядком.

10. Способ по п. 6, в котором обучающие объекты не связаны с присущим им временным порядком, и причем организация набора обучающих объектов в упорядоченный список обучающих объектов включает в себя организацию обучающих объектов в соответствии с заранее определенным правилом.

11. Способ по п. 6, в котором обучающие объекты не связаны с присущим им временным порядком, и причем организация набора обучающих объектов в упорядоченный список обучающих объектов включает в себя создание случайного порядка обучающих объектов, который будет использован в качестве упорядоченного списка.

12. Сервер выполнен с возможностью выполнять алгоритм машинного обучения, который основан на прогностической модели дерева решений на основе дерева решений, причем дерево решений выполнено с возможностью обрабатывать значение категориального фактора путем преобразования его в его числовое представление, причем категориальный фактор связан с обучающим объектом, используемым для обучения алгоритма машинного обучения, причем обучающий объект обрабатывается в узле данного уровня дерева решений, причем дерево решений обладает по меньшей мере одним предыдущим уровнем дерева решений, причем на по меньшей мере одном предыдущем уровне значение по меньшей мере одного категориального фактора - преобразовано в свое предыдущее числовое представление для по меньшей мере одного предыдущего уровня дерева решений, сервер включающий в себя

постоянный носитель компьютерной информации;

процессор, связанный постоянным машиночитаемым носителем, процессор выполнен с возможностью осуществлять:

13. Сервер по п. 12, в котором набор обучающих объектов организован в упорядоченный список таким образом, что

14. Сервер по п. 12, в котором для создания числового представления значений категориальных факторов, процессор выполнен с возможностью выполнять создание только для тех предыдущих значений категориальных факторов, которые были созданы по меньшей мере на одном предыдущем уровне дерева решений.

15. Сервер по п. 13, в котором для создания числового представления значения категориальных факторов, процессор выполнен с возможностью выполнять создание только для тех предыдущих значений категориальных факторов, которые были созданы по меньшей мере на одном предыдущем уровне дерева решений и по меньшей мере на предыдущей итерации дерева решений.

16. Сервер по п. 12, в котором индикатор события обладает заранее определенным значением, и это заранее определенное значение является одним из положительного результата или отрицательного результата.

17. Сервер по п. 13, в котором процессор выполнен с возможностью осуществлять организацию набора обучающих объектов в упорядоченный список обучающих объектов.

18. Сервер по п. 17, в котором для организации обучающих объектов в упорядоченный список обучающих объектов, процессор выполнен с возможностью осуществлять организацию набора обучающих объектов в упорядоченный список обучающих объектов в момент времени до создания числового значения.

19. Сервер по п. 17, в котором для организации обучающих объектов в упорядоченный список обучающих объектов, процессор выполнен с возможностью осуществлять организацию множества из набора упорядоченных списков, и в котором способ далее включает в себя, до создания числового значения, выбор данного одного из набора упорядоченного списка.

20. Сервер по п. 17, в котором обучающие объекты связаны с присущим им временным порядком, и в котором для организации набора обучающих объектов в упорядоченный список, процессор выполнен с возможностью осуществлять организацию набора обучающих объектов в соответствии с временным порядком.

21. Сервер по п. 17, в котором обучающие объекты не связаны с присущим им временным порядком, и в котором для организации набора обучающих объектов в упорядоченный список, процессор выполнен с возможностью осуществлять организацию набора обучающих объектов в соответствии с заранее определенным правилом.

22. Сервер по п. 17, в котором обучающие объекты не связаны с присущим им временным порядком, и в котором для организации набора обучающих объектов в упорядоченный список обучающих объектов процессор выполнен с возможностью осуществлять создание случайного порядка обучающих объектов, который будет использован в качестве упорядоченного списка.

23. Способ создания разделяющего значения для узла дерева решений в модели дерева решений, используемой алгоритмом машинного обучения (MLA), причем разделяющее значение относится к узлу на конкретном уровне дерева решений, причем узел предназначен для классификации объекта, обладающего значением категориального фактора, которое необходимо преобразовать в представляющее его числовое значение, причем разделение позволяет классифицировать объект в один из дочерних узлов на основе числового значения и разделяющего значения, причем алгоритм машинного обучения выполняется электронным устройством для прогнозирования значения для объекта фазы использования, способ включающий в себя

создание диапазона всех возможных значений категориальных факторов;

применение сетки к диапазону для разделения диапазона на области, каждая область обладает границей;

использование границы как разделяющего значения;

этапы создания и применения выполняются до того, как значение категориального фактора было преобразовано в его числовое представление.

24. Способ по п. 21, в котором сетка обладает заранее определенным форматом.

25. Способ по п. 22, в котором сетка представляет собой сетку с постоянным интервалом.

26. Способ по п. 22, в котором сетка представляет собой сетку с непостоянным интервалом.

27. Способ по п. 21, в котором диапазон находится между нулем и единицей.

28. Способ по п. 21, в котором числовые представления значений категориальных факторов вычисляются с помощью R_constant, и в котором диапазон находится между R_constant и 1+(R_constant).

29. Способ по п. 21, в котором способ далее включает в себя, во время фазы использования, для данного значения счетчика, представляющего категориальный фактор, определение того, в какую часть, определенную сеткой, попадает данное значение счетчика, и использование соответствующих границ как значений для разделения.

30. Способ по п. 21, в котором использование границы как разделяющего значения выполняется для каждого уровня дерева решений, и причем способ далее включает в себя, после обучения данного уровня дерева решений, новое вычисление разделяющего значения.

31. Способ по п. 21, в котором использование границы как разделяющего значения выполняется для каждого дерева решений, и причем способ далее включает в себя, после обучения данного дерева решений, новое вычисление разделяющего значения.

32. Способ по п. 21, в котором использование границы как разделяющего значения выполняется во время этапа обучения MLA, и в котором обучение MLA во время текущей итерации одного из: (i) данного уровня дерева решения (ii) данной итерации дерева решений - включает в себя:

выбор лучшего значения, которое будет установлено на данной итерации, и лучшего значения разделяющего значения, связанного с ним.

33. Сервер выполнен с возможностью выполнять MLA, причем MLA основан на дереве решений, относящегося к модели дерева решений, причем дерево решений обладает узлом с разделяющим значением, причем узел представляет собой данный уровень дерева решений и предназначен для классификации объекта, обладающего категориальным фактором, который необходимо преобразовать в представляющее его числовое значение, причем разделение позволяет классифицировать объект в один из дочерних узлов на основе числового значения и разделяющего значения, сервер, включающий в себя

этапы создания и применения выполняются до того, как категориальный фактор был преобразован в свое числовое представление.

34. Сервер по п. 31, в котором сетка обладает заранее определенным форматом.

35. Сервер по п. 32, в котором сетка представляет собой сетку с постоянным интервалом.

36. Сервер по п. 32, в котором сетка представляет собой сетку с непостоянным интервалом.

37. Сервер по п. 31, в котором диапазон находится между нулем и единицей.

38. Сервер по п. 31, в котором числовое представление значений категориальных факторов вычисляется с помощью R_constant, и в котором диапазон находится между R_constant и 1+(R_constant).

39. Сервер по п. 31, в котором процессор далее выполнен с возможностью, во время фазы использования, способ далее включает в себя, во время фазы использования, для данного значения счетчика, представляющего собой категориальный фактор, осуществлять определение того, в какую часть, определенную сеткой, попадает данное значение счетчика, и использование соответствующих границ как значений для разделения.

40. Сервер по п. 31, в котором для использования границы как разделяющего значения, процессор выполнен с возможностью использовать границу как разделяющее значение для каждого уровня дерева решений, и причем процессор далее выполнен с возможностью, после обучения данного уровня дерева решений, осуществлять новое вычисление разделяющего значения.

41. Сервер по п. 31, в котором использование границы как разделяющего значения выполняется для каждой итерации дерева решений, и причем способ далее включает в себя, после обучения данной итерации дерева решений, новое вычисление разделяющего значения.

42. Сервер по п. 31, в котором для использования границы как разделяющего значения, процессор выполнен с возможностью осуществлять использование границы как разделяющего значения во время фазы обучения MLA, и в котором для обучения MLA во время текущей итерации одного из: (i) данного уровня решения (ii) данной итерации дерева решений - процессор далее выполнен с возможностью осуществлять

выбор лучшего значения, которое будет установлено на данной итерации и лучшего значения разделяющего значения, связанного с ним.