RU2016111677A

RU2016111677A - Способ и устройство для обучения классификатора и распознавания типа

Info

Publication number: RU2016111677A
Application number: RU2016111677A
Authority: RU
Inventors: Пинцзэ ВАН; Фэй Лун; Тао Чжан
Original assignee: Сяоми Инк.
Priority date: 2015-08-19
Filing date: 2015-12-16
Publication date: 2017-10-04
Also published as: JP2017535007A; US20170052947A1; KR20170032880A; MX2016003981A; KR101778784B1; CN105117384A; RU2643500C2; EP3133532A1; WO2017028416A1

Claims

1. Способ обучения классификатора, содержащий:

извлечение образцов фраз, содержащих целевое ключевое слово, из информации для отбора;

присвоение бинарных меток образцам фраз, чтобы получить обучающее множество образцов на основе принадлежности каждого из образцов фраз целевому классу;

разбиение на слова каждого образца фразы в обучающем множестве образцов, чтобы получить множество слов;

выделение заданного характеристического множества из множества слов, при этом заданное характеристическое множество содержит по меньшей мере одно характеристическое слово;

построение классификатора на основе характеристических слов в заданном характеристическом множестве; и

обучение классификатора на основе результатов присвоения бинарных меток в обучающем множестве образцов.

2. Способ по п. 1, отличающийся тем, что выделение заданного характеристического множества из множества слов содержит:

выделение заданного характеристического множества из множества слов на основе критерия хи-квадрат; или

выделение заданного характеристического множества из множества слов на основе прироста информации.

3. Способ по п. 1, отличающийся тем, что построение классификатора на основе характеристических слов в заданном характеристическом множестве содержит:

построение байесовского наивного классификатора с характеристическими словами в заданном характеристическом множестве, причем в байесовском наивном классификаторе соответствующие характеристические слова являются независимыми друг от друга.

4. Способ по п. 3, отличающийся тем, что обучение классификатора на основе результатов присвоения бинарных меток в обучающем множестве образцов содержит:

для каждого характеристического слова в байесовском наивном классификаторе – вычисление первой условной вероятности того, что фразы, содержащие характеристическое слово, принадлежат целевому классу, и вычисление второй условной вероятности того, что фразы, содержащие характеристическое слово, не принадлежат целевому классу, на основе результатов присвоения бинарных меток в обучающем множестве образцов; и

получение обученного байесовского наивного классификатора на основе соответствующих характеристических слов, первой условной вероятности и второй условной вероятности.

5. Способ распознавания типа, содержащий:

выделение фраз, содержащих целевое ключевое слово, из исходной информации;

формирование характеристического множества из исходной информации на основе характеристических слов, которые принадлежат к заданному характеристическому множеству, в выделенных фразах, при этом выделение характеристических слов в заданном характеристическом множестве производят на основе результатов разбиения на слова образцов фраз, содержащих целевое ключевое слово;

ввод характеристического множества исходной информации в обученный классификатор для предсказания, причем указанный классификатор предварительно строят на основе характеристических слов в заданном характеристическом множестве; и

получение результата предсказания классификатора, при этом результат предсказания представляет, принадлежит ли исходная информация целевому классу.

6. Способ по п. 5, отличающийся тем, что ввод характеристического множества исходной информации в обученный классификатор для предсказания содержит:

вычисление первой вероятности предсказания того, что исходная информация принадлежит целевому классу, и второй вероятности предсказания того, что исходная информация не принадлежит целевому классу, путем ввода каждого характеристического слова в характеристическом множестве исходной информации в обученный байесовский наивный классификатор;

предсказание, принадлежит ли исходная информация целевому классу на основе соотношения численных значений первой вероятности предсказания и второй вероятности предсказания;

при этом байесовский наивный классификатор содержит первую условную вероятность и вторую условную вероятность каждого характеристического слова, причем первая условная вероятность – это вероятность того, что фразы, содержащие характеристическое слово, принадлежат целевому классу, а вторая условная вероятность – это вероятность того, что фразы, содержащие характеристическое слово, не принадлежат целевому классу.

7. Способ по п. 5 или 6, отличающийся тем, что дополнительно содержит:

извлечение целевой информации из исходной информации, когда получено предсказание, что исходная информация принадлежит целевому классу.

8. Способ по п. 7, отличающийся тем, что целевая информация представляет собой дату рождения, а извлечение целевой информации из исходной информации содержит:

выделение даты рождения из исходной информации посредством надлежащего выражения; или

выделение даты приема исходной информации в качестве даты рождения.

9. Устройство для обучения классификатора, содержащее:

модуль выделения фраз, выполненный с возможностью извлечения образцов фраз, содержащих целевое ключевое слово, из информации для отбора;

модуль присвоения меток фразам, выполненный с возможностью присвоения образцам фраз бинарных меток, чтобы получить обучающее множество образцов на основе принадлежности каждого образца фразы целевому классу;

модуль разбиения фраз на слова, выполненный с возможностью разбиения на слова каждого образца фразы в обучающем множестве образцов, чтобы получить множество слов;

модуль выделения характеристических слов, выполненный с возможностью выделения заданного характеристического множества из множества слов, при этом заданное характеристическое множество содержит по меньшей мере одно характеристическое слово;

модуль построения классификатора, выполненный с возможностью построения классификатора на основе характеристических слов в заданном характеристическом множестве; и

модуль обучения классификатора, выполненный с возможностью обучения классификатора на основе результатов присвоения бинарных меток в обучающем множестве образцов.

10. Устройство по п. 9, отличающееся тем, что

модуль выделения характеристических слов выполнен с возможностью выделения заданного характеристического множества из множества слов на основе критерия хи-квадрат; или

модуль выделения характеристических слов выполнен с возможностью выделения заданного характеристического множества из множества слов на основе прироста информации.

11. Устройство по п. 9, отличающееся тем, что

модуль построения классификатора выполнен с возможностью построения байесовского наивного классификатора с характеристическими словами в заданном характеристическом множестве, причем в байесовском наивном классификаторе соответствующие характеристические слова являются независимыми друг от друга.

12. Устройство по п. 11, отличающееся тем, что модуль обучения классификатора содержит:

вычислительный субмодуль, выполненный с возможностью вычисления первой условной вероятности того, что фразы, содержащие характеристическое слово, принадлежат целевому классу, и второй условной вероятности того, что фразы, содержащие характеристическое слово, не принадлежат целевому классу, для каждого характеристического слова в байесовском наивном классификаторе на основе результатов присвоения бинарных меток в обучающем множестве образцов; и

обучающий субмодуль, выполненный с возможностью получения обученного байесовского наивного классификатора на основе каждого характеристического слова, первой условной вероятности и второй условной вероятности.

13. Устройство для распознавания типа, содержащее:

модуль исходного выделения, выполненный с возможностью выделения фраз, содержащих целевое ключевое слово, из исходной информации;

модуль характеристического выделения, выполненный с возможностью формирования характеристического множества исходной информации на основе характеристических слов в выделенных фразах, которые принадлежат характеристическому множеству, причем выделение характеристических слов в заданном характеристическом множестве производится на основе результатов разбиения на слова образца фразы, содержащей целевое ключевое слово;

модуль характеристического ввода, выполненный с возможностью ввода характеристического множества исходной информации в обученный классификатор для предсказания, причем классификатор предварительно построен на основе характеристических слов в заданном характеристическом множестве; и

модуль получения результата, выполненный с возможностью получения результата предсказания классификатора, который представляет, принадлежит ли исходная информация целевому классу.

14. Устройство по п. 13, отличающееся тем, что модуль характеристического ввода содержит:

вычислительный субмодуль, выполненный с возможностью вычисления первой вероятности предсказания того, что исходная информация принадлежит целевому классу, и второй вероятности предсказания того, что исходная информация не принадлежит целевому классу, путем ввода каждого характеристического слова характеристического множества исходной информации в обученный байесовский наивный классификатор; и

субмодуль предсказания, выполненный с возможностью предсказания того, принадлежит ли исходная информация целевому классу на основе соотношения численных значений первой вероятности предсказания и второй вероятности предсказания;

причем обученный байесовский наивный классификатор содержит первую условную вероятность и вторую условную вероятность каждого характеристического слова, при этом первая условная вероятность – это вероятность того, что фразы, содержащие характеристическое слово, принадлежат целевому классу, а вторая условная вероятность – это вероятность того, что фразы, содержащие характеристическое слово, не принадлежат целевому классу.

15. Устройство по п. 13 или 14, отличающееся тем, что дополнительно содержит:

модуль извлечения информации, выполненный с возможностью извлечения целевой информации из исходной информации, когда получено предсказание, что исходная информация принадлежит целевому классу.

16. Устройство по п. 15, отличающееся тем, что целевая информация представляет собой дату рождения, и

модуль извлечения информации выполнен с возможностью извлечения даты рождения из исходной информации посредством надлежащего выражения; или

модуль извлечения информации выполнен с возможностью извлечения даты приема исходной информации в качестве даты рождения.

17. Устройство для обучения классификатора, содержащее:

процессор; и

память для хранения инструкций, исполняемых процессором, при этом процессор выполнен с возможностью:

извлечения образцов фраз, содержащих целевое ключевое слово из информации для отбора;

присвоения бинарных меток образцам фраз, чтобы получить обучающее множество образцов на основе принадлежности каждого образца фразы целевому классу;

разбиения на слова каждого образца фразы в обучающем множестве образцов, чтобы получить множество слов;

выделения заданного характеристического множества из множества слов, причем множество характеристических слов содержит по меньшей мере одно характеристическое слово;

построения классификатора на основе характеристических слов в заданном характеристическом множестве; и

обучения классификатора на основе результатов присвоения бинарных меток в обучающем множестве образцов.

18. Устройство для распознавания типа, содержащее:

процессор; и

извлечения фраз, содержащих ключевое слово из исходной информации;

формирования характеристического множества из исходной информации на основе характеристических слов, которые принадлежат к характеристическому множеству, в выделенных фразах, при этом выделение характеристических слов в заданном характеристическом множестве производится на основе результатов разбиения на слова образцов фраз, содержащих целевое ключевое слово;

ввода характеристического множества исходной информации в обученный классификатор для предсказания, причем указанный классификатор предварительно построен на основе характеристических слов в заданном характеристическом множестве; и

получения результата предсказания классификатора, при этом результат предсказания представляет, принадлежит ли исходная информация целевому классу.