RU2016113791A - Способ и устройство для построения шаблона и способ и устройство для идентификации информации - Google Patents

Способ и устройство для построения шаблона и способ и устройство для идентификации информации Download PDF

Info

Publication number
RU2016113791A
RU2016113791A RU2016113791A RU2016113791A RU2016113791A RU 2016113791 A RU2016113791 A RU 2016113791A RU 2016113791 A RU2016113791 A RU 2016113791A RU 2016113791 A RU2016113791 A RU 2016113791A RU 2016113791 A RU2016113791 A RU 2016113791A
Authority
RU
Russia
Prior art keywords
words
marking
keyword
given
information
Prior art date
Application number
RU2016113791A
Other languages
English (en)
Other versions
RU2649294C2 (ru
Inventor
Пинцзэ ВАН
Тао Чжан
Чжицзюнь ЧЭНЬ
Original Assignee
Сяоми Инк.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Сяоми Инк. filed Critical Сяоми Инк.
Publication of RU2016113791A publication Critical patent/RU2016113791A/ru
Application granted granted Critical
Publication of RU2649294C2 publication Critical patent/RU2649294C2/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/12Messaging; Mailboxes; Announcements
    • H04W4/14Short messaging services, e.g. short message services [SMS] or unstructured supplementary service data [USSD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Educational Administration (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)

Claims (62)

1 Способ для построения шаблона, содержащий:
получение множества образцов исходной информации, содержащего по меньшей мере один фрагмент исходной информации, которая принадлежит к заданному классу;
в случае, если исходная информация содержит заданное ключевое слово, маркировку заданного ключевого слова на основе множества заданных ключевых слов с целью получения обучающего множества образцов;
сегментирование выражений, содержащих заданное ключевое слово в обучающем множестве образцов, с целью получения одного или более слов;
извлечение множества заданных характеристик из одного или более слов, при этом множество заданных характеристик содержит по меньшей мере одно характеристическое слово;
построение шаблона на основе заданного ключевого слова и характеристического слова в множестве заданных характеристик; и
обучение шаблона на основе результатов маркировки в обучающем множестве образцов.
2. Способ по п. 1, отличающийся тем, что процесс извлечения множества заданных характеристик из одного или более слов содержит:
извлечение множества заданных характеристик из одного или более слов посредством проверки по критерию хи-квадрат; или
извлечение множества заданных характеристик из одного или более слов посредством проверки по приросту информации.
3. Способ по п. 1, отличающийся тем, что процесс построения шаблона на основе заданного ключевого слова и характеристического слова в множестве заданных характеристик содержит:
построение наивного байесовского классификатора с характеристическим словом в множестве заданных характеристик и заданным ключевым словом, при этом соответствующие характеристические слова в наивном байесовском классификаторе независимы друг от друга.
4. Способ по п. 3, отличающийся тем, что процесс обучения шаблона на основе результатов маркировки в обучающем множестве образцов содержит:
для каждого характеристического слова в наивном байесовском классификаторе, подсчет количества выражений, которые содержат характеристическое слово и заданное ключевое слово и представляют собой первое выражение, на основе результатов маркировки в обучающем множестве образцов;
получение обученного наивного байесовского классификатора на основе соответствующих характеристических слов, заданного ключевого слова и указанного количества.
5. Способ по п. 4, отличающийся тем, что процесс маркировки заданного ключевого слова на основе множества заданных ключевых слов с целью получения обучающего множества образцов содержит:
в случае если исходная информация содержит цифровую информацию, маркировку цифровой информации на основе множества заданных ключевых слов с целью получения обучающего множества образцов, причем множество заданных ключевых слов содержит информацию, указывающую атрибуты цифровой информации.
6. Способ идентификации информации, содержащий:
получение по меньшей мере одного выражения в целевой информации, подлежащей идентификации, причем выражение содержит заданное ключевое слово;
сегментирование выражения для получения одного или более слов и извлечение множества заданных характеристик из одного или более слов, причем множество заданных характеристик содержит по меньшей мере одно характеристическое слово;
идентификацию результата маркировки заданного ключевого слова в выражении на основе заданного ключевого слова, характеристического слова и заранее построенного шаблона.
7. Способ по п. 6, отличающийся тем, что дополнительно содержит:
в случае если существует ряд выражений, чьи результаты маркировки представляют собой заданный результат маркировки, принятие заданного ключевого слова в выражении, обладающем наибольшей вероятностью быть идентифицированным, в качестве информации заданного результата маркировки.
8. Способ по п. 6, отличающийся тем, что процесс извлечения множества заданных характеристик из одного или более слов содержит:
извлечение множества заданных характеристик из одного или более слов посредством проверки по критерию хи-квадрат; или
извлечение множества заданных характеристик из одного или более слов посредством проверки по приросту информации.
9. Способ по п. 6, отличающийся тем, что заданное ключевое слово представляет собой цифровую информацию, и результат маркировки представляет собой атрибут цифровой информации.
10. Устройство для построения шаблона, содержащее:
модуль получения образцов, выполненный с возможностью получения множества образцов исходной информации, содержащего по меньшей мере один фрагмент исходной информации, которая принадлежит к заданному классу;
модуль обработки образцов, выполненный с возможностью, в случае если исходная информация содержит заданное ключевое слово, маркировки заданного ключевого слова на основе множества заданных ключевых слов с целью получения обучающего множества образцов;
модуль осуществления сегментирования, выполненный с возможностью сегментирования выражений, содержащих заданное ключевое слово в обучающем множестве образцов, с целью получения одного или более слов;
модуль извлечения характеристик, выполненный с возможностью извлечения множества заданных характеристик из одного или более слов, причем множество заданных характеристик содержит по меньшей мере одно характеристическое слово;
модуль построения шаблона, выполненный с возможностью построения шаблона на основе заданного ключевого слова и характеристического слова в множестве заданных характеристик;
модуль обучения шаблона, выполненный с возможностью обучения шаблона на основе результатов маркировки в обучающем множестве образцов.
11. Устройство по п. 10, отличающееся тем, что модуль извлечения характеристик выполнен с возможностью извлечения множества заданных характеристик из одного или более слов посредством проверки по критерию хи-квадрат или проверки по приросту информации.
12. Устройство по п. 10, отличающееся тем, что модуль построения шаблона выполнен с возможностью построения наивного байесовского классификатора с характеристическим словом в множестве заданных характеристик и заданным ключевым словом, причем соответствующие характеристические слова в наивном байесовском классификаторе независимы друг от друга.
13. Устройство по п. 12, отличающееся тем, что модуль обучения шаблона выполнен с возможностью, для каждого характеристического слова в наивном байесовском классификаторе, подсчета количества выражений, которые содержат характеристическое слово и заданное ключевое слово и представляют собой первое выражение, на основе результатов маркировки в обучающем множестве образцов, и получения обученного наивного байесовского классификатора на основе соответствующих характеристических слов, заданного ключевого слова и указанного количества.
14. Устройство по п. 13, отличающееся тем, что заданное ключевое слово представляет собой цифровую информацию, и результаты маркировки представляют собой атрибуты цифровой информации.
15. Устройство для идентификации информации, содержащее:
модуль получения выражений, выполненный с возможностью получения по меньшей мере одного выражения в целевой информации, подлежащей идентификации, причем выражение содержит заданное ключевое слово;
модуль извлечения слов, выполненный с возможностью сегментирования выражения для получения одного или более слов и извлечения множества заданных характеристик из одного или более слов, причем множество заданных характеристик содержит по меньшей мере одно характеристическое слово;
модуль осуществления идентификации, выполненный с возможностью идентификации результата маркировки заданного ключевого слова в выражении на основе заданного ключевого слова, характеристического слова и заранее построенного шаблона.
16. Устройство по п. 15, отличающееся тем, что модуль осуществления идентификации выполнен с возможностью, в случае если существует ряд выражений, чьи результаты маркировки представляют собой заданный результат маркировки, принятия заданного ключевого слова в выражении, обладающем наибольшей вероятностью быть идентифицированным, в качестве информации заданного результата маркировки.
17. Устройство по п. 15, отличающееся тем, что модуль извлечения слов выполнен с возможностью извлечения множества заданных характеристик из одного или более слов посредством проверки по критерию хи-квадрат или проверки по приросту информации.
18. Устройство по п. 15, отличающееся тем, что заданное ключевое слово представляет собой цифровую информацию, и результаты маркировки представляют собой атрибуты цифровой информации.
19. Устройство для построения шаблона, содержащее:
процессор;
память для хранения инструкций, исполняемых процессором;
причем процессор выполнен с возможностью:
получения множества образцов исходной информации, содержащего по меньшей мере один фрагмент исходной информации, которая принадлежит к заданному классу;
в случае если исходная информация содержит заданное ключевое слово, маркировки заданного ключевого слова на основе множества заданных ключевых слов с целью получения обучающего множества образцов;
сегментирования выражений, содержащих заданное ключевое слово в обучающем множестве образцов, с целью получения одного или более слов;
извлечения множества заданных характеристик из одного или более слов, при этом множество заданных характеристик содержит по меньшей мере одно характеристическое слово;
построения шаблона на основе заданного ключевого слова и характеристического слова в множестве заданных характеристик; и
обучения шаблона на основе результатов маркировки в обучающем множестве образцов.
20. Устройство для идентификации информации, содержащее:
процессор;
память для хранения инструкций, исполняемых процессором;
причем процессор выполнен с возможностью:
получения по меньшей мере одного выражения в целевой информации, подлежащей идентификации, причем выражение содержит заданное ключевое слово;
сегментирования выражения с целью получения одного или более слов и извлечения множества заданных характеристик из одного или более слов, причем множество заданных характеристик содержит по меньшей мере одно характеристическое слово;
идентификации результата маркировки заданного ключевого слова в выражении на основе заданного ключевого слова, характеристического слова и заранее построенного шаблона.
RU2016113791A 2015-11-24 2015-12-29 Способ и устройство для построения шаблона и способ и устройство для идентификации информации RU2649294C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510827530.8 2015-11-24
CN201510827530.8A CN105488025B (zh) 2015-11-24 2015-11-24 模板构建方法和装置、信息识别方法和装置
PCT/CN2015/099305 WO2017088246A1 (zh) 2015-11-24 2015-12-29 模板构建方法和装置、信息识别方法和装置

Publications (2)

Publication Number Publication Date
RU2016113791A true RU2016113791A (ru) 2017-10-19
RU2649294C2 RU2649294C2 (ru) 2018-03-30

Family

ID=55675009

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2016113791A RU2649294C2 (ru) 2015-11-24 2015-12-29 Способ и устройство для построения шаблона и способ и устройство для идентификации информации

Country Status (8)

Country Link
US (1) US10061762B2 (ru)
EP (1) EP3173940A1 (ru)
JP (1) JP2018504728A (ru)
KR (1) KR101782754B1 (ru)
CN (1) CN105488025B (ru)
MX (1) MX2016004667A (ru)
RU (1) RU2649294C2 (ru)
WO (1) WO2017088246A1 (ru)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106060000B (zh) * 2016-05-06 2020-02-07 青岛海信移动通信技术股份有限公司 一种识别验证信息的方法和设备
CN107493370B (zh) * 2016-06-12 2020-08-04 阿里巴巴集团控股有限公司 流量模板确定方法、流量信息识别方法及装置
CN107517463A (zh) * 2016-06-15 2017-12-26 中国移动通信集团浙江有限公司 一种电话号码的识别方法和装置
CN107734131B (zh) * 2016-08-11 2021-02-12 中兴通讯股份有限公司 一种短信息分类方法及装置
WO2018058145A1 (en) 2016-09-26 2018-03-29 Yudong Yang Scheduling traffic of an application communication session between a wifi network and a device
US10687341B2 (en) * 2016-09-26 2020-06-16 The Trustees Of Columbia University In The City Of New York Systems, methods, and media for scheduling traffic of a communication session between an application on a WiFi network and another device
US11259352B2 (en) 2016-09-26 2022-02-22 The Trustees Of Columbia University In The City Of New York Systems, methods, and media for providing multi-homing
CN108616413B (zh) * 2016-12-13 2020-09-11 百度在线网络技术(北京)有限公司 信息校准方法和装置
KR101901965B1 (ko) * 2017-01-12 2018-09-28 엘에스산전 주식회사 프로젝트 화면 작성장치
CN106899949B (zh) * 2017-01-23 2019-11-08 北京思特奇信息技术股份有限公司 手机短信通知格式的调整配置方法及系统
CN107391363B (zh) * 2017-06-30 2020-07-03 北京金山安全软件有限公司 一种测试资源的调度方法、装置及电子设备
CN107315739A (zh) * 2017-07-12 2017-11-03 安徽博约信息科技股份有限公司 一种语义分析方法
CN107632975A (zh) * 2017-08-09 2018-01-26 联动优势科技有限公司 一种词典建立方法及设备
CN109558887A (zh) * 2017-09-27 2019-04-02 北京京东尚科信息技术有限公司 一种预测行为的方法和装置
CN108038108B (zh) * 2017-12-27 2021-12-10 东软集团股份有限公司 分词模型训练方法和装置、及存储介质
CN110392155B (zh) * 2018-04-16 2022-05-24 阿里巴巴集团控股有限公司 通知消息的显示、处理方法、装置及设备
CN109815488A (zh) * 2018-12-26 2019-05-28 出门问问信息科技有限公司 自然语言理解训练数据生成方法、装置、设备及存储介质
WO2020145591A1 (ko) * 2019-01-08 2020-07-16 주식회사 에치에프알 자연 언어 기반 블록 체인 스마트 계약 생성방법 및 그를 위한 장치
KR102142688B1 (ko) * 2019-01-08 2020-08-07 주식회사 에치에프알 자연 언어 기반 블록 체인 스마트 계약 생성방법 및 그를 위한 장치
CN110147433B (zh) * 2019-05-21 2021-01-29 北京鸿联九五信息产业有限公司 一种基于字典树的文本模板提取方法
CN110349424A (zh) * 2019-06-28 2019-10-18 京东数字科技控股有限公司 一种基于车路协同的路侧系统
CN110889451B (zh) * 2019-11-26 2023-07-07 Oppo广东移动通信有限公司 事件审计方法、装置、终端设备以及存储介质
CN112667886A (zh) * 2020-12-02 2021-04-16 浙江学海教育科技有限公司 不当评论检测方法、装置、设备及介质
CN115859964B (zh) * 2022-11-24 2023-04-28 安徽冠成教育科技有限公司 基于教育云平台的教育资源共享方法及系统

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5991748A (en) * 1996-12-06 1999-11-23 American Express Travel Related Services Company, Inc. Methods and apparatus for regenerating a prepaid transaction account
US6192360B1 (en) 1998-06-23 2001-02-20 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier
SG93868A1 (en) * 2000-06-07 2003-01-21 Kent Ridge Digital Labs Method and system for user-configurable clustering of information
US7376635B1 (en) * 2000-07-21 2008-05-20 Ford Global Technologies, Llc Theme-based system and method for classifying documents
EP1404100A1 (en) * 2002-09-30 2004-03-31 Koninklijke KPN N.V. Billing of differentiated services
KR100487718B1 (ko) 2002-12-20 2005-05-03 한국전자통신연구원 영역 외 코퍼스를 이용한 영역 종속적 훈련 코퍼스 보강시스템 및 그 방법
US7412385B2 (en) * 2003-11-12 2008-08-12 Microsoft Corporation System for identifying paraphrases using machine translation
US7003280B2 (en) * 2003-11-20 2006-02-21 Lucent Technologies Inc. Method and system for processing adjustments to the type and quality of multimedia communication sessions
US8000455B1 (en) * 2004-12-09 2011-08-16 Callwave, Inc. Methods and systems for call processing
US7457808B2 (en) * 2004-12-17 2008-11-25 Xerox Corporation Method and apparatus for explaining categorization decisions
JP2006301972A (ja) 2005-04-20 2006-11-02 Mihatenu Yume:Kk 電子秘書装置
US8073472B1 (en) * 2005-08-26 2011-12-06 Openwave Systems Inc. System and method for providing prepaid billing for instant messaging users
JP4831737B2 (ja) * 2006-02-06 2011-12-07 独立行政法人情報通信研究機構 キーワード強調装置及びプログラム
US7756535B1 (en) * 2006-07-07 2010-07-13 Trend Micro Incorporated Lightweight content filtering system for mobile phones
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
CN101154379B (zh) * 2006-09-27 2011-11-23 夏普株式会社 定位语音中的关键词的方法和设备以及语音识别系统
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8023974B1 (en) * 2007-02-15 2011-09-20 Trend Micro Incorporated Lightweight SVM-based content filtering system for mobile phones
US20090125529A1 (en) * 2007-11-12 2009-05-14 Vydiswaran V G Vinod Extracting information based on document structure and characteristics of attributes
JP5311378B2 (ja) * 2008-06-26 2013-10-09 国立大学法人京都大学 特徴語自動学習システム、コンテンツ連動型広告配信コンピュータシステム、検索連動型広告配信コンピュータシステム、およびテキスト分類コンピュータシステム、並びにこれらのコンピュータプログラムおよび方法
JP2010056682A (ja) * 2008-08-26 2010-03-11 National Institute Of Information & Communication Technology 電子メール受信装置及び電子メール受信方法、電子メール送信装置及び電子メール送信方法、メール送信サーバ
US8346534B2 (en) * 2008-11-06 2013-01-01 University of North Texas System Method, system and apparatus for automatic keyword extraction
JP5426868B2 (ja) * 2008-11-11 2014-02-26 株式会社日立製作所 数値表現処理装置
JP5152918B2 (ja) * 2008-11-27 2013-02-27 日本電信電話株式会社 固有表現抽出装置、その方法およびプログラム
JP5299963B2 (ja) * 2009-02-06 2013-09-25 株式会社日立製作所 分析システム及び情報分析方法
US8291319B2 (en) * 2009-08-28 2012-10-16 International Business Machines Corporation Intelligent self-enabled solution discovery
US8589231B2 (en) * 2010-01-28 2013-11-19 Yahoo! Inc. Sensitivity categorization of web pages
CN102404462B (zh) * 2010-09-08 2015-05-20 北京商路通信息技术有限公司 一种用于电话外拨系统的呼叫进程分析方法和设备
CN102024045B (zh) * 2010-12-14 2012-02-22 成都市华为赛门铁克科技有限公司 信息分类处理方法、装置和终端
US20120278336A1 (en) * 2011-04-29 2012-11-01 Malik Hassan H Representing information from documents
CA2747153A1 (en) * 2011-07-19 2013-01-19 Suleman Kaheer Natural language processing dialog system for obtaining goods, services or information
CN102984783B (zh) * 2011-09-02 2015-03-25 阿尔卡特朗讯公司 一种用于控制终端访问无线网络的方法和装置
US8655393B2 (en) * 2011-11-02 2014-02-18 Idt Corporation System and method for communicating using two-way SMS
JP5776539B2 (ja) * 2011-12-26 2015-09-09 富士通株式会社 抽出装置、抽出プログラム、および抽出方法
EP2839391A4 (en) * 2012-04-20 2016-01-27 Maluuba Inc CONVERSATION AGENT
US9715493B2 (en) * 2012-09-28 2017-07-25 Semeon Analytics Inc. Method and system for monitoring social media and analyzing text to automate classification of user posts using a facet based relevance assessment model
CN104217717B (zh) * 2013-05-29 2016-11-23 腾讯科技(深圳)有限公司 构建语言模型的方法及装置
CN104717342B (zh) 2013-12-11 2018-11-09 阿里巴巴集团控股有限公司 一种基于短信息唤醒客户端应用的方法及装置
CN103914530B (zh) * 2014-03-31 2017-02-15 北京中科模识科技有限公司 广播电视节目中违规广告的监测方法和系统
CN104346326A (zh) * 2014-10-23 2015-02-11 苏州大学 一种情绪文本的情绪特征确定方法及装置
CN105447750B (zh) * 2015-11-17 2022-06-03 小米科技有限责任公司 信息识别方法、装置、终端及服务器

Also Published As

Publication number Publication date
US20170147553A1 (en) 2017-05-25
WO2017088246A1 (zh) 2017-06-01
RU2649294C2 (ru) 2018-03-30
EP3173940A1 (en) 2017-05-31
CN105488025A (zh) 2016-04-13
KR101782754B1 (ko) 2017-09-27
MX2016004667A (es) 2017-08-09
US10061762B2 (en) 2018-08-28
KR20170073542A (ko) 2017-06-28
JP2018504728A (ja) 2018-02-15
CN105488025B (zh) 2019-02-12

Similar Documents

Publication Publication Date Title
RU2016113791A (ru) Способ и устройство для построения шаблона и способ и устройство для идентификации информации
Wäldchen et al. Automated plant species identification—Trends and future directions
TWI754660B (zh) 訓練深層學習分類網路之系統和方法
CN107403198B (zh) 一种基于级联分类器的官网识别方法
AU2016273851B2 (en) Accurate tag relevance prediction for image search
CN104517112B (zh) 一种表格识别方法与系统
CN106033416B (zh) 一种字符串处理方法及装置
WO2017075939A1 (zh) 一种图像内容识别方法及装置
CN104517106B (zh) 一种列表识别方法与系统
CN107368613B (zh) 短文本情感分析方法及装置
CN106126235A (zh) 一种复用代码库构建方法、复用代码快速溯源方法及系统
US11829848B2 (en) Adding negative classes for training classifier
CN107004141A (zh) 对大样本组的高效标注
CN111159332A (zh) 一种基于bert的文本多意图识别方法
RU2014103152A (ru) Способы и системы эффективного автоматического распознавания символов
Liu et al. Scene text recognition with high performance CNN classifier and efficient word inference
CN110705281B (zh) 一种基于机器学习的简历信息抽取方法
CN114511857A (zh) 一种ocr识别结果处理方法、装置、设备及存储介质
CN106649264A (zh) 一种基于篇章信息的中文水果品种信息抽取方法及装置
CN109657710B (zh) 数据筛选方法、装置、服务器及存储介质
JP2013097395A5 (ru)
Yamazoe et al. Hypothesis preservation approach to scene text recognition with weighted finite-state transducer
CN110941703A (zh) 一种基于机器学习和模糊规则的集成简历信息抽取方法
US20200387691A1 (en) A quick match algorithm for biometric data
US20150063698A1 (en) Assisted OCR