RU2016113791A

RU2016113791A - Способ и устройство для построения шаблона и способ и устройство для идентификации информации

Info

Publication number: RU2016113791A
Application number: RU2016113791A
Authority: RU
Inventors: Пинцзэ ВАН; Тао Чжан; Чжицзюнь ЧЭНЬ
Original assignee: Сяоми Инк.
Priority date: 2015-11-24
Filing date: 2015-12-29
Publication date: 2017-10-19
Also published as: US20170147553A1; WO2017088246A1; RU2649294C2; EP3173940A1; CN105488025A; KR101782754B1; MX2016004667A; US10061762B2; KR20170073542A; JP2018504728A; CN105488025B

Claims

1 Способ для построения шаблона, содержащий:

получение множества образцов исходной информации, содержащего по меньшей мере один фрагмент исходной информации, которая принадлежит к заданному классу;

в случае, если исходная информация содержит заданное ключевое слово, маркировку заданного ключевого слова на основе множества заданных ключевых слов с целью получения обучающего множества образцов;

сегментирование выражений, содержащих заданное ключевое слово в обучающем множестве образцов, с целью получения одного или более слов;

извлечение множества заданных характеристик из одного или более слов, при этом множество заданных характеристик содержит по меньшей мере одно характеристическое слово;

построение шаблона на основе заданного ключевого слова и характеристического слова в множестве заданных характеристик; и

обучение шаблона на основе результатов маркировки в обучающем множестве образцов.

2. Способ по п. 1, отличающийся тем, что процесс извлечения множества заданных характеристик из одного или более слов содержит:

извлечение множества заданных характеристик из одного или более слов посредством проверки по критерию хи-квадрат; или

извлечение множества заданных характеристик из одного или более слов посредством проверки по приросту информации.

3. Способ по п. 1, отличающийся тем, что процесс построения шаблона на основе заданного ключевого слова и характеристического слова в множестве заданных характеристик содержит:

построение наивного байесовского классификатора с характеристическим словом в множестве заданных характеристик и заданным ключевым словом, при этом соответствующие характеристические слова в наивном байесовском классификаторе независимы друг от друга.

4. Способ по п. 3, отличающийся тем, что процесс обучения шаблона на основе результатов маркировки в обучающем множестве образцов содержит:

для каждого характеристического слова в наивном байесовском классификаторе, подсчет количества выражений, которые содержат характеристическое слово и заданное ключевое слово и представляют собой первое выражение, на основе результатов маркировки в обучающем множестве образцов;

получение обученного наивного байесовского классификатора на основе соответствующих характеристических слов, заданного ключевого слова и указанного количества.

5. Способ по п. 4, отличающийся тем, что процесс маркировки заданного ключевого слова на основе множества заданных ключевых слов с целью получения обучающего множества образцов содержит:

в случае если исходная информация содержит цифровую информацию, маркировку цифровой информации на основе множества заданных ключевых слов с целью получения обучающего множества образцов, причем множество заданных ключевых слов содержит информацию, указывающую атрибуты цифровой информации.

6. Способ идентификации информации, содержащий:

получение по меньшей мере одного выражения в целевой информации, подлежащей идентификации, причем выражение содержит заданное ключевое слово;

сегментирование выражения для получения одного или более слов и извлечение множества заданных характеристик из одного или более слов, причем множество заданных характеристик содержит по меньшей мере одно характеристическое слово;

идентификацию результата маркировки заданного ключевого слова в выражении на основе заданного ключевого слова, характеристического слова и заранее построенного шаблона.

7. Способ по п. 6, отличающийся тем, что дополнительно содержит:

в случае если существует ряд выражений, чьи результаты маркировки представляют собой заданный результат маркировки, принятие заданного ключевого слова в выражении, обладающем наибольшей вероятностью быть идентифицированным, в качестве информации заданного результата маркировки.

8. Способ по п. 6, отличающийся тем, что процесс извлечения множества заданных характеристик из одного или более слов содержит:

9. Способ по п. 6, отличающийся тем, что заданное ключевое слово представляет собой цифровую информацию, и результат маркировки представляет собой атрибут цифровой информации.

10. Устройство для построения шаблона, содержащее:

модуль получения образцов, выполненный с возможностью получения множества образцов исходной информации, содержащего по меньшей мере один фрагмент исходной информации, которая принадлежит к заданному классу;

модуль обработки образцов, выполненный с возможностью, в случае если исходная информация содержит заданное ключевое слово, маркировки заданного ключевого слова на основе множества заданных ключевых слов с целью получения обучающего множества образцов;

модуль осуществления сегментирования, выполненный с возможностью сегментирования выражений, содержащих заданное ключевое слово в обучающем множестве образцов, с целью получения одного или более слов;

модуль извлечения характеристик, выполненный с возможностью извлечения множества заданных характеристик из одного или более слов, причем множество заданных характеристик содержит по меньшей мере одно характеристическое слово;

модуль построения шаблона, выполненный с возможностью построения шаблона на основе заданного ключевого слова и характеристического слова в множестве заданных характеристик;

модуль обучения шаблона, выполненный с возможностью обучения шаблона на основе результатов маркировки в обучающем множестве образцов.

11. Устройство по п. 10, отличающееся тем, что модуль извлечения характеристик выполнен с возможностью извлечения множества заданных характеристик из одного или более слов посредством проверки по критерию хи-квадрат или проверки по приросту информации.

12. Устройство по п. 10, отличающееся тем, что модуль построения шаблона выполнен с возможностью построения наивного байесовского классификатора с характеристическим словом в множестве заданных характеристик и заданным ключевым словом, причем соответствующие характеристические слова в наивном байесовском классификаторе независимы друг от друга.

13. Устройство по п. 12, отличающееся тем, что модуль обучения шаблона выполнен с возможностью, для каждого характеристического слова в наивном байесовском классификаторе, подсчета количества выражений, которые содержат характеристическое слово и заданное ключевое слово и представляют собой первое выражение, на основе результатов маркировки в обучающем множестве образцов, и получения обученного наивного байесовского классификатора на основе соответствующих характеристических слов, заданного ключевого слова и указанного количества.

14. Устройство по п. 13, отличающееся тем, что заданное ключевое слово представляет собой цифровую информацию, и результаты маркировки представляют собой атрибуты цифровой информации.

15. Устройство для идентификации информации, содержащее:

модуль получения выражений, выполненный с возможностью получения по меньшей мере одного выражения в целевой информации, подлежащей идентификации, причем выражение содержит заданное ключевое слово;

модуль извлечения слов, выполненный с возможностью сегментирования выражения для получения одного или более слов и извлечения множества заданных характеристик из одного или более слов, причем множество заданных характеристик содержит по меньшей мере одно характеристическое слово;

модуль осуществления идентификации, выполненный с возможностью идентификации результата маркировки заданного ключевого слова в выражении на основе заданного ключевого слова, характеристического слова и заранее построенного шаблона.

16. Устройство по п. 15, отличающееся тем, что модуль осуществления идентификации выполнен с возможностью, в случае если существует ряд выражений, чьи результаты маркировки представляют собой заданный результат маркировки, принятия заданного ключевого слова в выражении, обладающем наибольшей вероятностью быть идентифицированным, в качестве информации заданного результата маркировки.

17. Устройство по п. 15, отличающееся тем, что модуль извлечения слов выполнен с возможностью извлечения множества заданных характеристик из одного или более слов посредством проверки по критерию хи-квадрат или проверки по приросту информации.

18. Устройство по п. 15, отличающееся тем, что заданное ключевое слово представляет собой цифровую информацию, и результаты маркировки представляют собой атрибуты цифровой информации.

19. Устройство для построения шаблона, содержащее:

процессор;

память для хранения инструкций, исполняемых процессором;

причем процессор выполнен с возможностью:

получения множества образцов исходной информации, содержащего по меньшей мере один фрагмент исходной информации, которая принадлежит к заданному классу;

в случае если исходная информация содержит заданное ключевое слово, маркировки заданного ключевого слова на основе множества заданных ключевых слов с целью получения обучающего множества образцов;

сегментирования выражений, содержащих заданное ключевое слово в обучающем множестве образцов, с целью получения одного или более слов;

извлечения множества заданных характеристик из одного или более слов, при этом множество заданных характеристик содержит по меньшей мере одно характеристическое слово;

построения шаблона на основе заданного ключевого слова и характеристического слова в множестве заданных характеристик; и

обучения шаблона на основе результатов маркировки в обучающем множестве образцов.

20. Устройство для идентификации информации, содержащее:

процессор;

причем процессор выполнен с возможностью:

получения по меньшей мере одного выражения в целевой информации, подлежащей идентификации, причем выражение содержит заданное ключевое слово;

сегментирования выражения с целью получения одного или более слов и извлечения множества заданных характеристик из одного или более слов, причем множество заданных характеристик содержит по меньшей мере одно характеристическое слово;

идентификации результата маркировки заданного ключевого слова в выражении на основе заданного ключевого слова, характеристического слова и заранее построенного шаблона.