RU2015141339A

RU2015141339A - Способ (варианты) и система (варианты) создания модели прогнозирования и определения точности модели прогнозирования

Info

Publication number: RU2015141339A
Application number: RU2015141339A
Authority: RU
Inventors: Андрей Владимирович ГУЛИН; Константин Вячеславович Воронцов; Евгений Андреевич Соколов; Игорь Евгеньевич Кураленок
Original assignee: Общество С Ограниченной Ответственностью "Яндекс"
Priority date: 2015-09-29
Filing date: 2015-09-29
Publication date: 2017-04-04

Claims

1. Способ определения параметра точности обученной модели прогнозирования в виде дерева принятия решений, способ выполняется в компьютерной системе машинного обучения; способ включает в себя:

доступ, с постоянного машиночитаемого носителя системы машинного обучения, к набору обучающих объектов, причем каждый обучающий объект из набора обучающих объектов включает в себя признаки и параметр интереса;

создание процессором системы машинного обучения обученной модели прогнозирования в виде дерева принятия решений по меньшей мере частично на основе набора обучающих объектов, причем каждый обучающий объект из набора обучающих объектов включает в себя признаки и параметр интереса, а обученная модель прогнозирования в виде дерева принятия решений включает в себя узлы, связанные с факторами, и листы, связанные с параметрами интереса обучающих объектов из набора обучающих объектов, и связь между листами и параметрами интереса была определена с помощью выполненного процессором системы машинного обучения сравнения по меньшей мере двух из факторов и признаков обучающих объектов из набора обучающих объектов;

отправку команды процессору системы машинного обучения на выполнение:

определения процессором числа обучающих объектов, связанных с данным листом (N);

определения процессором параметра точности листа на основе (i) параметров интереса, связанных с данным листом и (ii) числа параметров интереса, связанных с данным листом; и

определения процессором параметра точности обученной модели прогнозирования в виде дерева принятия решений на основе определенного параметра точности листа.

2. Способ определения параметра точности обученной модели прогнозирования в виде дерева принятия решений, способ выполняется в компьютерной системе машинного обучения; способ включает в себя:

доступ, с постоянного машиночитаемого носителя, к обученной модели прогнозирования в виде дерева принятия решений, созданной по меньшей мере частично на основе набора обучающих объектов, причем каждый обучающий объект из набора обучающих объектов включает в себя признаки и параметр интереса, а обученная модель прогнозирования в виде дерева принятия решений включает в себя узлы, связанные с факторами, и листы, связанные с параметрами интереса обучающих объектов из набора обучающих объектов, и связь между листами и параметрами интереса была определена с помощью сравнения по меньшей мере двух из факторов и признаков обучающих объектов из набора обучающих объектов;

определение процессором числа обучающих объектов, связанных с данным листом (N);

определение процессором параметра точности листа на основе (i) параметров интереса, связанных с данным листом и (ii) числа параметров интереса, связанных с данным листом; и

определение процессором параметра точности обученной модели прогнозирования в виде дерева принятия решений на основе определенного параметра точности листа.

3. Способ по п. 2, в котором число обучающих объектов, связанных с данным листом, равно числу параметров интереса, связанных с данным листом.

4. Способ по п. 2, в котором при определении процессором параметра точности листа используют весовую функцию, нелинейно зависимую от числа обучающих объектов, связанных с данным листом.

5. Способ по п. 4, в котором весовую функцию определяют в соответствии со следующей формулой:

log(N_j+1),

где N_j является числом параметров интереса, связанных с j-тым листом.

6. Способ по п. 4, в котором определение процессором параметра точности листа выполняют на основе (i) значения весовой функции и (ii) значений параметров интереса, связанных с данным листом.

7. Способ по п. 2, в котором при сравнении по меньшей мере двух факторов и признаков обучающих объектов выполняют сравнение процессором условий, связанных по меньшей мере с двумя факторами и по меньшей мере двумя значениями, связанными с признаками соответствующего обучающего объекта.

8. Способ по п. 2, в котором при определении процессором параметра точности обученной модели прогнозирования в виде дерева принятия решений, основанном на определенном параметре точности листа, выполняют определение общей ошибки листов в соответствии с формулой:

,

где M - число листов, N_j является числом параметров интереса, связанных с j-тым листом.

9. Способ по п. 2, в котором определение процессором параметра точности обученной модели прогнозирования в виде дерева принятия решений выполняют на основе множества определенных параметров точности листа, причем каждый из множества определенных параметров точности листа связан с отдельным листом.

10. Способ по п. 2, в котором признаки указывают по меньшей мере либо на число щелчков мышью, либо на число просмотров, либо на ранжирование документов, либо на URL, либо на доменное имя, либо на IP-адрес, либо на поисковой запрос, либо на ключевое слово.

11. Способ по п. 2, в котором параметр интереса указывает по меньшей мере либо на прогнозирование поискового результата, либо на вероятность щелчка мышью, либо на релевантность документа, либо на пользовательский интерес, либо на URL, либо на число щелчков мышью, либо на отношение количества щелчков мышью к количеству показов (CTR).

12. Способ по п. 2, в котором параметр точности модели прогнозирования в виде дерева принятия решений показывает точность целевой функции, связанную с моделью прогнозирования в виде дерева принятия решений.

13. Способ по п. 2, в котором каждый из факторов связан либо с (i) условием, применимым к бинарному признаку, либо с (ii) условием, применимым к численному признаку либо с (iii) условием, применимым к категориальному признаку.

14. Способ создания обученной модели прогнозирования в виде дерева принятия решений, способ выполняется в компьютерной системе машинного обучения; способ включает в себя:

осуществление доступа из постоянного машиночитаемого носителя к набору факторов;

идентификацию процессором из набора факторов фактора, связанного с наилучшим параметром точности предварительно обученной модели прогнозирования в виде дерева принятия решений, для данного положения узла, связанного с фактором в предварительно обученной модели прогнозирования в виде дерева принятия решений, причем наилучший параметр точности предварительно обученной модели прогнозирования в виде дерева принятия решений выбирается из множества параметров точности множества предварительных моделей прогнозирования в виде дерева принятия решений, причем множество параметров точности множества предварительных моделей прогнозирования в виде дерева принятия решений было создано в соответствии со способом по п. 2;

связывание процессором фактора с данным положением узла создающейся обученной модели прогнозирования в виде дерева принятия решений; и

создание процессором обученной модели прогнозирования в виде дерева принятия решений, причем обученная модель прогнозирования в виде дерева принятия решений включает в себя узел, связанный с фактором, для данного положения.

15. Способ по п. 14, в котором каждый из множества параметров точности связан с соответствующей моделью из множества предварительных моделей прогнозирования в виде дерева принятия решений.

16. Способ по п. 14, в котором дополнительно выполняют:

идентификацию процессором другого фактора из набора факторов, причем этот другой фактор связан с наилучшим параметром точности другой предварительно обученной модели прогнозирования в виде дерева принятия решений для другого данного положения другого узла, связанного с другим фактором в другой предварительно обученной модели прогнозирования в виде дерева принятия решений; и

связывание процессором другого фактора с другим данным положением другого узла создающейся обученной модели прогнозирования в виде дерева принятия решений.

17. Способ по п. 16, в котором обученная модель прогнозирования в виде дерева принятия решений дополнительно включает в себя другой узел, связанный с другим фактором, для другого данного положения.

18. Способ определения параметра точности обученной модели прогнозирования в виде дерева принятия решений, способ выполняется в компьютерной системе машинного обучения; способ включает в себя:

доступ, с постоянного машиночитаемого носителя, к набору обучающих объектов, причем каждый обучающий объект из набора обучающих объектов включает в себя признаки и параметр интереса;

создание процессором обученной модели прогнозирования в виде дерева принятия решений по меньшей мере частично на основе набора обучающих объектов, причем каждый обучающий объект из набора обучающих объектов включает в себя признаки и параметр интереса, а обученная модель прогнозирования в виде дерева принятия решений включает в себя узлы, связанные с факторами, и листы, связанные с параметрами интереса обучающих объектов из набора обучающих объектов, и связь между листами и параметрами интереса была определена с помощью сравнения по меньшей мере двух из факторов и признаков обучающих объектов из набора обучающих объектов;

19. Компьютерная система для определения параметра точности обученной модели прогнозирования в виде дерева принятия решений, система включает в себя:

постоянный машиночитаемый носитель;

процессор, выполненный с возможностью осуществлять:

20. Система по п. 19, в которой число обучающих объектов, связанных с данным листом, равно числу параметров интереса, связанных с данным листом.

21. Система по п. 19, в которой при определении параметра точности листа процессор выполнен с возможностью осуществлять использование весовой функции, нелинейно зависимой от числа обучающих объектов, связанных с данным листом.

22. Система по п. 21, в которой процессор выполнен с возможностью осуществлять определение весовой функции в соответствии со следующей формулой:

log(N_j+1),

23. Система по п. 21, в которой процессор выполнен с возможностью осуществлять определение параметра точности листа на основе (i) значения весовой функции и (ii) значениях параметров интереса, связанных с данным листом.

24. Система по п. 19, в которой при сравнении по меньшей мере двух факторов и признаков обучающих объектов процессор выполнен с возможностью осуществлять сравнение условий, связанных по меньшей мере с двумя факторами и по меньшей мере двумя значениями, связанными с признаками соответствующего обучающего объекта.

25. Система по п. 19, в которой при определении параметра точности обученной модели прогнозирования в виде дерева принятия решений, основанное на определенном параметре точности листа, включает в себя определение общей ошибки листов в соответствии с формулой:

,

где М - число листов, Nj является числом параметров интереса, связанных с j-тым листом.

26. Система по п. 19, в которой процессор выполнен с возможностью определения параметра точности обученной модели прогнозирования в виде дерева принятия решений на основе множества определенных параметров точности листа, причем каждый из множества определенных параметров точности листа связан с отдельным листом.

27. Система по п. 19, в которой признаки указывают по меньшей мере либо на число щелчков мышью, либо на число просмотров, либо на ранжирование документов, либо на URL, либо на доменное имя, либо на IP-адрес, либо на поисковой запрос, либо на ключевое слово.

28. Система по п. 19, в которой параметр интереса указывает по меньшей мере либо на прогнозирование поискового результата, либо на вероятность щелчка мышью, либо на релевантность документа, либо на пользовательский интерес, либо на URL, либо на число щелчков мышью, либо на отношение количества щелчков мышью к количеству показов (CTR).

29. Система по п. 19, в которой параметр точности модели прогнозирования в виде дерева принятия решений выполнен с возможностью показывать точность целевой функции, связанной с моделью прогнозирования в виде дерева принятия решений.

30. Система по п. 19, в которой каждый из факторов связан либо с (i) условием, применимым к бинарному признаку, либо с (ii) условием, применимым к численному признаку, либо с (iii) условием, применимым к категориальному признаку.

31. Компьютерная система для создания обученной модели прогнозирования в виде дерева принятия решений, система включает в себя:

постоянный машиночитаемый носитель;

32. Система по п. 31, в которой каждый из множества параметров точности связан с соответствующей моделью из множества предварительных моделей прогнозирования в виде дерева принятия решений.

33. Система по п. 31, в которой процессор дополнительно выполнен с возможностью осуществлять:

и связывание процессором другого фактора с другим данным положением другого узла создающейся обученной модели прогнозирования в виде дерева принятия решений.

34. Система по п. 33, в которой обученная модель прогнозирования в виде дерева принятия решений дополнительно включает в себя другой узел, связанный с другим фактором, для другого данного положения.

35. Компьютерная система для определения параметра точности обученной модели прогнозирования в виде дерева принятия решений, система включает в себя:

постоянный машиночитаемый носитель;