RU2016111677A - Способ и устройство для обучения классификатора и распознавания типа - Google Patents

Способ и устройство для обучения классификатора и распознавания типа Download PDF

Info

Publication number
RU2016111677A
RU2016111677A RU2016111677A RU2016111677A RU2016111677A RU 2016111677 A RU2016111677 A RU 2016111677A RU 2016111677 A RU2016111677 A RU 2016111677A RU 2016111677 A RU2016111677 A RU 2016111677A RU 2016111677 A RU2016111677 A RU 2016111677A
Authority
RU
Russia
Prior art keywords
characteristic
classifier
words
source information
word
Prior art date
Application number
RU2016111677A
Other languages
English (en)
Other versions
RU2643500C2 (ru
Inventor
Пинцзэ ВАН
Фэй Лун
Тао Чжан
Original Assignee
Сяоми Инк.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Сяоми Инк. filed Critical Сяоми Инк.
Publication of RU2016111677A publication Critical patent/RU2016111677A/ru
Application granted granted Critical
Publication of RU2643500C2 publication Critical patent/RU2643500C2/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Claims (74)

1. Способ обучения классификатора, содержащий:
извлечение образцов фраз, содержащих целевое ключевое слово, из информации для отбора;
присвоение бинарных меток образцам фраз, чтобы получить обучающее множество образцов на основе принадлежности каждого из образцов фраз целевому классу;
разбиение на слова каждого образца фразы в обучающем множестве образцов, чтобы получить множество слов;
выделение заданного характеристического множества из множества слов, при этом заданное характеристическое множество содержит по меньшей мере одно характеристическое слово;
построение классификатора на основе характеристических слов в заданном характеристическом множестве; и
обучение классификатора на основе результатов присвоения бинарных меток в обучающем множестве образцов.
2. Способ по п. 1, отличающийся тем, что выделение заданного характеристического множества из множества слов содержит:
выделение заданного характеристического множества из множества слов на основе критерия хи-квадрат; или
выделение заданного характеристического множества из множества слов на основе прироста информации.
3. Способ по п. 1, отличающийся тем, что построение классификатора на основе характеристических слов в заданном характеристическом множестве содержит:
построение байесовского наивного классификатора с характеристическими словами в заданном характеристическом множестве, причем в байесовском наивном классификаторе соответствующие характеристические слова являются независимыми друг от друга.
4. Способ по п. 3, отличающийся тем, что обучение классификатора на основе результатов присвоения бинарных меток в обучающем множестве образцов содержит:
для каждого характеристического слова в байесовском наивном классификаторе – вычисление первой условной вероятности того, что фразы, содержащие характеристическое слово, принадлежат целевому классу, и вычисление второй условной вероятности того, что фразы, содержащие характеристическое слово, не принадлежат целевому классу, на основе результатов присвоения бинарных меток в обучающем множестве образцов; и
получение обученного байесовского наивного классификатора на основе соответствующих характеристических слов, первой условной вероятности и второй условной вероятности.
5. Способ распознавания типа, содержащий:
выделение фраз, содержащих целевое ключевое слово, из исходной информации;
формирование характеристического множества из исходной информации на основе характеристических слов, которые принадлежат к заданному характеристическому множеству, в выделенных фразах, при этом выделение характеристических слов в заданном характеристическом множестве производят на основе результатов разбиения на слова образцов фраз, содержащих целевое ключевое слово;
ввод характеристического множества исходной информации в обученный классификатор для предсказания, причем указанный классификатор предварительно строят на основе характеристических слов в заданном характеристическом множестве; и
получение результата предсказания классификатора, при этом результат предсказания представляет, принадлежит ли исходная информация целевому классу.
6. Способ по п. 5, отличающийся тем, что ввод характеристического множества исходной информации в обученный классификатор для предсказания содержит:
вычисление первой вероятности предсказания того, что исходная информация принадлежит целевому классу, и второй вероятности предсказания того, что исходная информация не принадлежит целевому классу, путем ввода каждого характеристического слова в характеристическом множестве исходной информации в обученный байесовский наивный классификатор;
предсказание, принадлежит ли исходная информация целевому классу на основе соотношения численных значений первой вероятности предсказания и второй вероятности предсказания;
при этом байесовский наивный классификатор содержит первую условную вероятность и вторую условную вероятность каждого характеристического слова, причем первая условная вероятность – это вероятность того, что фразы, содержащие характеристическое слово, принадлежат целевому классу, а вторая условная вероятность – это вероятность того, что фразы, содержащие характеристическое слово, не принадлежат целевому классу.
7. Способ по п. 5 или 6, отличающийся тем, что дополнительно содержит:
извлечение целевой информации из исходной информации, когда получено предсказание, что исходная информация принадлежит целевому классу.
8. Способ по п. 7, отличающийся тем, что целевая информация представляет собой дату рождения, а извлечение целевой информации из исходной информации содержит:
выделение даты рождения из исходной информации посредством надлежащего выражения; или
выделение даты приема исходной информации в качестве даты рождения.
9. Устройство для обучения классификатора, содержащее:
модуль выделения фраз, выполненный с возможностью извлечения образцов фраз, содержащих целевое ключевое слово, из информации для отбора;
модуль присвоения меток фразам, выполненный с возможностью присвоения образцам фраз бинарных меток, чтобы получить обучающее множество образцов на основе принадлежности каждого образца фразы целевому классу;
модуль разбиения фраз на слова, выполненный с возможностью разбиения на слова каждого образца фразы в обучающем множестве образцов, чтобы получить множество слов;
модуль выделения характеристических слов, выполненный с возможностью выделения заданного характеристического множества из множества слов, при этом заданное характеристическое множество содержит по меньшей мере одно характеристическое слово;
модуль построения классификатора, выполненный с возможностью построения классификатора на основе характеристических слов в заданном характеристическом множестве; и
модуль обучения классификатора, выполненный с возможностью обучения классификатора на основе результатов присвоения бинарных меток в обучающем множестве образцов.
10. Устройство по п. 9, отличающееся тем, что
модуль выделения характеристических слов выполнен с возможностью выделения заданного характеристического множества из множества слов на основе критерия хи-квадрат; или
модуль выделения характеристических слов выполнен с возможностью выделения заданного характеристического множества из множества слов на основе прироста информации.
11. Устройство по п. 9, отличающееся тем, что
модуль построения классификатора выполнен с возможностью построения байесовского наивного классификатора с характеристическими словами в заданном характеристическом множестве, причем в байесовском наивном классификаторе соответствующие характеристические слова являются независимыми друг от друга.
12. Устройство по п. 11, отличающееся тем, что модуль обучения классификатора содержит:
вычислительный субмодуль, выполненный с возможностью вычисления первой условной вероятности того, что фразы, содержащие характеристическое слово, принадлежат целевому классу, и второй условной вероятности того, что фразы, содержащие характеристическое слово, не принадлежат целевому классу, для каждого характеристического слова в байесовском наивном классификаторе на основе результатов присвоения бинарных меток в обучающем множестве образцов; и
обучающий субмодуль, выполненный с возможностью получения обученного байесовского наивного классификатора на основе каждого характеристического слова, первой условной вероятности и второй условной вероятности.
13. Устройство для распознавания типа, содержащее:
модуль исходного выделения, выполненный с возможностью выделения фраз, содержащих целевое ключевое слово, из исходной информации;
модуль характеристического выделения, выполненный с возможностью формирования характеристического множества исходной информации на основе характеристических слов в выделенных фразах, которые принадлежат характеристическому множеству, причем выделение характеристических слов в заданном характеристическом множестве производится на основе результатов разбиения на слова образца фразы, содержащей целевое ключевое слово;
модуль характеристического ввода, выполненный с возможностью ввода характеристического множества исходной информации в обученный классификатор для предсказания, причем классификатор предварительно построен на основе характеристических слов в заданном характеристическом множестве; и
модуль получения результата, выполненный с возможностью получения результата предсказания классификатора, который представляет, принадлежит ли исходная информация целевому классу.
14. Устройство по п. 13, отличающееся тем, что модуль характеристического ввода содержит:
вычислительный субмодуль, выполненный с возможностью вычисления первой вероятности предсказания того, что исходная информация принадлежит целевому классу, и второй вероятности предсказания того, что исходная информация не принадлежит целевому классу, путем ввода каждого характеристического слова характеристического множества исходной информации в обученный байесовский наивный классификатор; и
субмодуль предсказания, выполненный с возможностью предсказания того, принадлежит ли исходная информация целевому классу на основе соотношения численных значений первой вероятности предсказания и второй вероятности предсказания;
причем обученный байесовский наивный классификатор содержит первую условную вероятность и вторую условную вероятность каждого характеристического слова, при этом первая условная вероятность – это вероятность того, что фразы, содержащие характеристическое слово, принадлежат целевому классу, а вторая условная вероятность – это вероятность того, что фразы, содержащие характеристическое слово, не принадлежат целевому классу.
15. Устройство по п. 13 или 14, отличающееся тем, что дополнительно содержит:
модуль извлечения информации, выполненный с возможностью извлечения целевой информации из исходной информации, когда получено предсказание, что исходная информация принадлежит целевому классу.
16. Устройство по п. 15, отличающееся тем, что целевая информация представляет собой дату рождения, и
модуль извлечения информации выполнен с возможностью извлечения даты рождения из исходной информации посредством надлежащего выражения; или
модуль извлечения информации выполнен с возможностью извлечения даты приема исходной информации в качестве даты рождения.
17. Устройство для обучения классификатора, содержащее:
процессор; и
память для хранения инструкций, исполняемых процессором, при этом процессор выполнен с возможностью:
извлечения образцов фраз, содержащих целевое ключевое слово из информации для отбора;
присвоения бинарных меток образцам фраз, чтобы получить обучающее множество образцов на основе принадлежности каждого образца фразы целевому классу;
разбиения на слова каждого образца фразы в обучающем множестве образцов, чтобы получить множество слов;
выделения заданного характеристического множества из множества слов, причем множество характеристических слов содержит по меньшей мере одно характеристическое слово;
построения классификатора на основе характеристических слов в заданном характеристическом множестве; и
обучения классификатора на основе результатов присвоения бинарных меток в обучающем множестве образцов.
18. Устройство для распознавания типа, содержащее:
процессор; и
память для хранения инструкций, исполняемых процессором, при этом процессор выполнен с возможностью:
извлечения фраз, содержащих ключевое слово из исходной информации;
формирования характеристического множества из исходной информации на основе характеристических слов, которые принадлежат к характеристическому множеству, в выделенных фразах, при этом выделение характеристических слов в заданном характеристическом множестве производится на основе результатов разбиения на слова образцов фраз, содержащих целевое ключевое слово;
ввода характеристического множества исходной информации в обученный классификатор для предсказания, причем указанный классификатор предварительно построен на основе характеристических слов в заданном характеристическом множестве; и
получения результата предсказания классификатора, при этом результат предсказания представляет, принадлежит ли исходная информация целевому классу.
RU2016111677A 2015-08-19 2015-12-16 Способ и устройство для обучения классификатора и распознавания типа RU2643500C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510511468.1A CN105117384A (zh) 2015-08-19 2015-08-19 分类器训练方法、类型识别方法及装置
CN201510511468.1 2015-08-19
PCT/CN2015/097615 WO2017028416A1 (zh) 2015-08-19 2015-12-16 分类器训练方法、类型识别方法及装置

Publications (2)

Publication Number Publication Date
RU2016111677A true RU2016111677A (ru) 2017-10-04
RU2643500C2 RU2643500C2 (ru) 2018-02-01

Family

ID=54665378

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2016111677A RU2643500C2 (ru) 2015-08-19 2015-12-16 Способ и устройство для обучения классификатора и распознавания типа

Country Status (8)

Country Link
US (1) US20170052947A1 (ru)
EP (1) EP3133532A1 (ru)
JP (1) JP2017535007A (ru)
KR (1) KR101778784B1 (ru)
CN (1) CN105117384A (ru)
MX (1) MX2016003981A (ru)
RU (1) RU2643500C2 (ru)
WO (1) WO2017028416A1 (ru)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117384A (zh) * 2015-08-19 2015-12-02 小米科技有限责任公司 分类器训练方法、类型识别方法及装置
CN106060000B (zh) * 2016-05-06 2020-02-07 青岛海信移动通信技术股份有限公司 一种识别验证信息的方法和设备
CN106211165B (zh) * 2016-06-14 2020-04-21 北京奇虎科技有限公司 检测外文骚扰短信的方法、装置及相应的客户端
CN107135494B (zh) * 2017-04-24 2020-06-19 北京小米移动软件有限公司 垃圾短信识别方法及装置
CN107230475B (zh) * 2017-05-27 2022-04-05 腾讯科技(深圳)有限公司 一种语音关键词识别方法、装置、终端及服务器
CN110019782B (zh) * 2017-09-26 2021-11-02 北京京东尚科信息技术有限公司 用于输出文本类别的方法和装置
CN107704892B (zh) * 2017-11-07 2019-05-17 宁波爱信诺航天信息有限公司 一种基于贝叶斯模型的商品编码分类方法以及系统
US10726204B2 (en) * 2018-05-24 2020-07-28 International Business Machines Corporation Training data expansion for natural language classification
CN109325123B (zh) * 2018-09-29 2020-10-16 武汉斗鱼网络科技有限公司 基于补集特征的贝叶斯文档分类方法、装置、设备及介质
US11100287B2 (en) * 2018-10-30 2021-08-24 International Business Machines Corporation Classification engine for learning properties of words and multi-word expressions
CN109979440B (zh) * 2019-03-13 2021-05-11 广州市网星信息技术有限公司 关键词样本确定方法、语音识别方法、装置、设备和介质
CN109992771B (zh) * 2019-03-13 2020-05-05 北京三快在线科技有限公司 一种文本生成的方法及装置
CN110083835A (zh) * 2019-04-24 2019-08-02 北京邮电大学 一种基于图和词句协同的关键词提取方法及装置
CN111339297B (zh) * 2020-02-21 2023-04-25 广州天懋信息系统股份有限公司 网络资产异常检测方法、系统、介质和设备
CN113688436A (zh) * 2020-05-19 2021-11-23 天津大学 一种pca与朴素贝叶斯分类融合的硬件木马检测方法
CN112529623B (zh) * 2020-12-14 2023-07-11 中国联合网络通信集团有限公司 恶意用户的识别方法、装置和设备
CN112925958A (zh) * 2021-02-05 2021-06-08 深圳力维智联技术有限公司 多源异构数据适配方法、装置、设备及可读存储介质
CN116094886B (zh) * 2023-03-09 2023-08-25 浙江万胜智能科技股份有限公司 一种双模模块中载波通信数据处理方法及系统

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11203318A (ja) * 1998-01-19 1999-07-30 Seiko Epson Corp 文書分類方法および装置並びに文書分類処理プログラムを記録した記録媒体
US6192360B1 (en) * 1998-06-23 2001-02-20 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier
US7376635B1 (en) * 2000-07-21 2008-05-20 Ford Global Technologies, Llc Theme-based system and method for classifying documents
US7624006B2 (en) * 2004-09-15 2009-11-24 Microsoft Corporation Conditional maximum likelihood estimation of naïve bayes probability models
JP2006301972A (ja) 2005-04-20 2006-11-02 Mihatenu Yume:Kk 電子秘書装置
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8082151B2 (en) * 2007-09-18 2011-12-20 At&T Intellectual Property I, Lp System and method of generating responses to text-based messages
CN101516071B (zh) * 2008-02-18 2013-01-23 中国移动通信集团重庆有限公司 垃圾短消息的分类方法
US20100161406A1 (en) * 2008-12-23 2010-06-24 Motorola, Inc. Method and Apparatus for Managing Classes and Keywords and for Retrieving Advertisements
JP5346841B2 (ja) * 2010-02-22 2013-11-20 株式会社野村総合研究所 文書分類システムおよび文書分類プログラムならびに文書分類方法
US8892488B2 (en) * 2011-06-01 2014-11-18 Nec Laboratories America, Inc. Document classification with weighted supervised n-gram embedding
RU2491622C1 (ru) * 2012-01-25 2013-08-27 Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" Способ классификации документов по категориям
CN103246686A (zh) * 2012-02-14 2013-08-14 阿里巴巴集团控股有限公司 文本分类方法和装置及文本分类的特征处理方法和装置
US9910909B2 (en) * 2013-01-23 2018-03-06 24/7 Customer, Inc. Method and apparatus for extracting journey of life attributes of a user from user interactions
CN103336766B (zh) * 2013-07-04 2016-12-28 微梦创科网络科技(中国)有限公司 短文本垃圾识别以及建模方法和装置
CN103501487A (zh) * 2013-09-18 2014-01-08 小米科技有限责任公司 分类器更新方法、装置、终端、服务器及系统
CN103500195B (zh) * 2013-09-18 2016-08-17 小米科技有限责任公司 分类器更新方法、装置、系统及设备
CN103885934B (zh) * 2014-02-19 2017-05-03 中国专利信息中心 一种专利文献关键短语自动提取方法
US10394953B2 (en) * 2015-07-17 2019-08-27 Facebook, Inc. Meme detection in digital chatter analysis
CN105117384A (zh) * 2015-08-19 2015-12-02 小米科技有限责任公司 分类器训练方法、类型识别方法及装置

Also Published As

Publication number Publication date
JP2017535007A (ja) 2017-11-24
US20170052947A1 (en) 2017-02-23
KR20170032880A (ko) 2017-03-23
MX2016003981A (es) 2017-04-27
KR101778784B1 (ko) 2017-09-26
CN105117384A (zh) 2015-12-02
RU2643500C2 (ru) 2018-02-01
EP3133532A1 (en) 2017-02-22
WO2017028416A1 (zh) 2017-02-23

Similar Documents

Publication Publication Date Title
RU2016111677A (ru) Способ и устройство для обучения классификатора и распознавания типа
CN109215637B (zh) 语音识别方法
CN111797394B (zh) 基于stacking集成的APT组织识别方法、系统及存储介质
KR102304673B1 (ko) 키워드 추출 방법, 컴퓨터 장치, 및 저장 매체
Viglino et al. End-to-End Accented Speech Recognition.
KR102313028B1 (ko) 음성 인식 시스템 및 방법
GB2595088A (en) Security systems and methods
CN105183720B (zh) 基于rnn模型的机器翻译方法和装置
CN107403198B (zh) 一种基于级联分类器的官网识别方法
Jernite et al. Simultaneous learning of trees and representations for extreme classification and density estimation
US9412077B2 (en) Method and apparatus for classification
US11164562B2 (en) Entity-level clarification in conversation services
RU2016113791A (ru) Способ и устройство для построения шаблона и способ и устройство для идентификации информации
Zhou et al. Constructing ECOC based on confusion matrix for multiclass learning problems.
JP2021157792A (ja) 事前トレーニングされた分類器に基づく深層ニューラル・ネットワーク(dnn)予測の検証
CN112580346B (zh) 事件抽取方法、装置、计算机设备和存储介质
CN111159332A (zh) 一种基于bert的文本多意图识别方法
US10373028B2 (en) Pattern recognition device, pattern recognition method, and computer program product
Kim et al. Sequential labeling for tracking dynamic dialog states
CN109726386B (zh) 一种词向量模型生成方法、装置和计算机可读存储介质
CN111898339B (zh) 基于约束解码的古诗生成方法、装置、设备及介质
CN110556102A (zh) 意图识别和执行的方法、设备、车载语音对话系统以及计算机存储介质
JP7096199B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN109657071B (zh) 词汇预测方法、装置、设备和计算机可读存储介质
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备