RU2018123353A - Предсказание вероятности появления строки с использованием последовательности векторов - Google Patents

Предсказание вероятности появления строки с использованием последовательности векторов Download PDF

Info

Publication number
RU2018123353A
RU2018123353A RU2018123353A RU2018123353A RU2018123353A RU 2018123353 A RU2018123353 A RU 2018123353A RU 2018123353 A RU2018123353 A RU 2018123353A RU 2018123353 A RU2018123353 A RU 2018123353A RU 2018123353 A RU2018123353 A RU 2018123353A
Authority
RU
Russia
Prior art keywords
line
character
vector
multiple lines
sequence
Prior art date
Application number
RU2018123353A
Other languages
English (en)
Other versions
RU2018123353A3 (ru
RU2712101C2 (ru
Inventor
Евгений Михайлович Инденбом
Даниил Гарриевич Анастасьев
Original Assignee
Общество с ограниченной ответственностью "Аби Продакшн"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью "Аби Продакшн" filed Critical Общество с ограниченной ответственностью "Аби Продакшн"
Priority to RU2018123353A priority Critical patent/RU2712101C2/ru
Priority to US16/021,689 priority patent/US10657203B2/en
Publication of RU2018123353A publication Critical patent/RU2018123353A/ru
Publication of RU2018123353A3 publication Critical patent/RU2018123353A3/ru
Application granted granted Critical
Publication of RU2712101C2 publication Critical patent/RU2712101C2/ru
Priority to US16/877,245 priority patent/US10963647B2/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Claims (48)

1. Способ определения наиболее вероятной строки из множества строк, включающий
получение множества строк, где каждая строка из множества строк содержит множество символов;
для каждой строки из множества строк создание обрабатывающим устройством первой последовательности векторов, исходя по меньшей мере из максимальной длины слова для каждого символа в строке;
передачу модулю машинного обучения первой последовательности векторов для каждой строки из множества строк;
и получение от модуля машинного обучения вероятности появления каждой строки из множества строк.
2. Способ по п. 1, отличающийся тем, что каждый вектор в первой последовательности векторов соответствует каждому символу в этой строке.
3. Способ по п. 2, отличающийся тем, что каждый вектор в первой последовательности векторов создается путем объединения первого вектора, содержащего максимальную длину слова для данного символа строки, и второго вектора, содержащего вектор символа для данного символа строки.
4. Способ по п. 3, отличающийся тем, что максимальная длина слова для каждого символа строки соответствует длине самого длинного возможного слова в строке, которая начинается с этого символа.
5. Способ по п. 4, отличающийся тем, что самое длинное возможное слово берется из словаря.
6. Способ по п. 3, отличающийся тем, что вектор символа для каждого символа строится на основе одного или более из
эмбединг символа;
единый вектор для символов алфавита, отличающегося от алфавита, используемого для строки;
вектор для частотных знаков пунктуации;
вектор для редких знаков пунктуации; или
вектор для цифр.
7. Способ по п. 1, отличающийся тем, что каждая строка из множества строк отличается от других строк из множества строк одним символом, этот символ находится в одной и той же позиции каждой из строк.
8. Способ по п. 1, отличающийся тем, что модуль машинного обучения включает
первый полносвязный слой и второй полносвязный слой для применения матричных преобразований к первой последовательности векторов каждой из строк; и
третий полносвязный слой, который используется в качестве выходного слоя.
9. Способ по п. 8, отличающийся тем, что к первому результату первого полносвязного слоя и второму результату второго полносвязного слоя применяются функция пакетной нормализации и ректификационная линейная функция активации и что к третьему выходу третьего полносвязного слоя применяется сигмоидная функция активации.
10. Способ по п. 1, отличающийся тем, что вероятность появления данной строки, имеющей значение, близкое к «один» по сравнению со значениями вероятности появления остальных строк, указывает на то, что у этой строки максимальная вероятность появления.
11. Система определения наиболее вероятной строки из множества строк, включающая следующие компоненты:
устройство памяти, в котором хранятся инструкции;
устройство обработки, подключенное к запоминающему устройству, причем устройство обработки предназначено для выполнения инструкций для
получения множества строк, где каждая строка из множества строк содержит множество символов;
для каждой строки из множества строк создания обрабатывающим устройством первой последовательности векторов, исходя по меньшей мере из максимальной длины слова для каждого символа в строке;
передачи модулю машинного обучения первой последовательности векторов для каждой строки из множества строк; и
получения от модуля машинного обучения вероятности появления каждой строки из множества строк.
12. Система по п. 11, отличающаяся тем, что каждый вектор в первой последовательности векторов соответствует каждому символу в этой строке.
13. Система по п. 12, отличающаяся тем, что каждый вектор в первой последовательности векторов создается путем объединения первого вектора, содержащего максимальную длину слова для данного символа строки, и второго вектора, содержащего вектор символа для данного символа строки.
14. Система по п. 13, отличающаяся тем, что максимальная длина слова для каждого символа строки соответствует длине самого длинного возможного слова в строке, которая начинается с этого символа.
15. Система по п. 14, отличающаяся тем, что самое длинное возможное слово берется из словаря.
16. Система по п. 13, отличающаяся тем, что вектор символа для каждого символа строится на основе одного или более из следующих вариантов:
эмбединг символа;
единый вектор для символов алфавита, отличающегося от алфавита, используемого для строки;
вектор для частотных знаков пунктуации;
вектор для редких знаков пунктуации; или
вектор для цифр.
17. Система по п. 11, отличающаяся тем, что каждая строка из множества строк отличается от других строк из множества строк одним символом, этот символ находится в одной и той же позиции каждой из строк.
18. Постоянный машиночитаемый носитель данных, содержащий инструкции, направленные на выполнения способа определения наиболее вероятной строки из множества строк, которые при обращении к ним обрабатывающего устройства приводят к выполнению обрабатывающим устройством следующих операций:
получения множества строк, где каждая строка из множества строк содержит множество символов;
для каждой строки из множества строк создания обрабатывающим устройством первой последовательности векторов, исходя по меньшей мере из максимальной длины слова для каждого символа в строке;
передачи модулю машинного обучения первой последовательности векторов для каждой строки из множества строк; и
получения от модуля машинного обучения вероятности появления каждой строки из множества строк.
19. Постоянный машиночитаемый носитель данных по п. 18, в котором модуль машинного обучения содержит
первый полносвязный слой и второй полносвязный слой для применения матричных преобразований к первой последовательности векторов каждой из строк; и
третий полносвязный слой, который используется в качестве выходного слоя.
20. Постоянный машиночитаемый носитель данных по п. 19, отличающийся тем, что к первому результату первого полносвязного слоя и ко второму результату второго полносвязного слоя применяются функция пакетной нормализации и ректификационная линейная функция активации и что к третьему выходу третьего полносвязного слоя применяется сигмоидная функция активации.
RU2018123353A 2018-06-27 2018-06-27 Предсказание вероятности появления строки с использованием последовательности векторов RU2712101C2 (ru)

Priority Applications (3)

Application Number Priority Date Filing Date Title
RU2018123353A RU2712101C2 (ru) 2018-06-27 2018-06-27 Предсказание вероятности появления строки с использованием последовательности векторов
US16/021,689 US10657203B2 (en) 2018-06-27 2018-06-28 Predicting probability of occurrence of a string using sequence of vectors
US16/877,245 US10963647B2 (en) 2018-06-27 2020-05-18 Predicting probability of occurrence of a string using sequence of vectors

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2018123353A RU2712101C2 (ru) 2018-06-27 2018-06-27 Предсказание вероятности появления строки с использованием последовательности векторов

Publications (3)

Publication Number Publication Date
RU2018123353A true RU2018123353A (ru) 2019-12-27
RU2018123353A3 RU2018123353A3 (ru) 2019-12-27
RU2712101C2 RU2712101C2 (ru) 2020-01-24

Family

ID=69022501

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2018123353A RU2712101C2 (ru) 2018-06-27 2018-06-27 Предсказание вероятности появления строки с использованием последовательности векторов

Country Status (2)

Country Link
US (2) US10657203B2 (ru)
RU (1) RU2712101C2 (ru)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019159826A (ja) * 2018-03-13 2019-09-19 富士通株式会社 表示制御プログラム、表示制御装置及び表示制御方法
RU2712101C2 (ru) * 2018-06-27 2020-01-24 Общество с ограниченной ответственностью "Аби Продакшн" Предсказание вероятности появления строки с использованием последовательности векторов
US11934414B2 (en) * 2019-11-20 2024-03-19 Canva Pty Ltd Systems and methods for generating document score adjustments
CN112926334A (zh) * 2019-12-06 2021-06-08 北京三星通信技术研究有限公司 确定词表示向量的方法、装置及电子设备

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6272456B1 (en) * 1998-03-19 2001-08-07 Microsoft Corporation System and method for identifying the language of written text having a plurality of different length n-gram profiles
US6394263B1 (en) * 1999-07-30 2002-05-28 Unisys Corporation Autognomic decision making system and method
US7028250B2 (en) * 2000-05-25 2006-04-11 Kanisa, Inc. System and method for automatically classifying text
US7627596B2 (en) * 2001-02-22 2009-12-01 International Business Machines Corporation Retrieving handwritten documents using multiple document recognizers and techniques allowing both typed and handwritten queries
US7016844B2 (en) * 2002-09-26 2006-03-21 Core Mobility, Inc. System and method for online transcription services
GB2407657B (en) * 2003-10-30 2006-08-23 Vox Generation Ltd Automated grammar generator (AGG)
US20070067157A1 (en) * 2005-09-22 2007-03-22 International Business Machines Corporation System and method for automatically extracting interesting phrases in a large dynamic corpus
US7580926B2 (en) * 2005-12-01 2009-08-25 Adchemy, Inc. Method and apparatus for representing text using search engine, document collection, and hierarchal taxonomy
RU2487403C1 (ru) * 2011-11-30 2013-07-10 Федеральное государственное бюджетное учреждение науки Институт системного программирования Российской академии наук Способ построения семантической модели документа
US9037464B1 (en) * 2013-01-15 2015-05-19 Google Inc. Computing numeric representations of words in a high-dimensional space
CN105518656A (zh) * 2013-08-09 2016-04-20 行为识别系统公司 用于多传感器数据融合的认知神经语言学行为辨识系统
US20150051896A1 (en) * 2013-08-14 2015-02-19 National Research Council Of Canada Method and apparatus to construct program for assisting in reviewing
US20170293608A1 (en) * 2016-04-06 2017-10-12 Omni Ai, Inc. Unusual score generators for a neuro-linguistic behavioral recognition system
US9645998B1 (en) * 2016-06-12 2017-05-09 Apple Inc. Learning new words
US10474753B2 (en) * 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10091354B1 (en) * 2016-12-15 2018-10-02 Sorenson Ip Holdings, Llc Transcribing media files
US10146768B2 (en) * 2017-01-25 2018-12-04 Google Llc Automatic suggested responses to images received in messages using language model
US20190138887A1 (en) * 2017-11-01 2019-05-09 Board Of Trustees Of Michigan State University Systems, methods, and media for gated recurrent neural networks with reduced parameter gating signals and/or memory-cell units
RU2712101C2 (ru) * 2018-06-27 2020-01-24 Общество с ограниченной ответственностью "Аби Продакшн" Предсказание вероятности появления строки с использованием последовательности векторов
US11093579B2 (en) * 2018-09-05 2021-08-17 Intel Corporation FP16-S7E8 mixed precision for deep learning and other algorithms

Also Published As

Publication number Publication date
RU2018123353A3 (ru) 2019-12-27
US20200004819A1 (en) 2020-01-02
US20200279079A1 (en) 2020-09-03
US10657203B2 (en) 2020-05-19
RU2712101C2 (ru) 2020-01-24
US10963647B2 (en) 2021-03-30

Similar Documents

Publication Publication Date Title
RU2018123353A (ru) Предсказание вероятности появления строки с использованием последовательности векторов
US11657233B2 (en) Systems and methods for unifying question answering and text classification via span extraction
CN110046244B (zh) 一种用于问答系统的答案选择方法
CN110321566B (zh) 中文命名实体识别方法、装置、计算机设备和存储介质
US10025773B2 (en) System and method for natural language processing using synthetic text
US10686589B2 (en) Combining hashes of data blocks
US20060168494A1 (en) Error protecting groups of data words
CN107704506A (zh) 智能应答的方法和装置
JP2009524852A5 (ru)
CN104766077B (zh) 一种识别图片中的字符的方法和装置
CN110597971B (zh) 基于神经网络的自动问答装置、方法及可读存储介质
RU2015102520A (ru) Способы и системы автоматического распознавания символов с использованием дерева решений
WO2021027218A1 (zh) 文本分类的方法、装置以及计算机可读介质
RU2019141908A (ru) Идентификация блоков связанных слов в документах сложной структуры
US20120109633A1 (en) Method and system for diacritizing arabic language text
CN107153469B (zh) 为输入数据搜索匹配候选项的方法、数据库创建方法、装置及计算机程序产品
CN113282707A (zh) 基于Transformer模型的数据预测方法、装置、服务器及存储介质
CN109102070B (zh) 卷积神经网络数据的预处理方法和装置
CN103810280A (zh) 一种微博话题检测方法
CN111666965B (zh) 改进图像识别的多级别深度特征和多匹配器融合
KR20160116980A (ko) Ldpc 복호기의 vss 알고리즘을 위한 h 행렬의 스케줄링 장치 및 그 방법
CN110222340B (zh) 书籍人物姓名识别模型的训练方法、电子设备及存储介质
KR102529987B1 (ko) Crf 기반 한자 문헌의 문장 및 어구 식별 장치 및 방법
CN110969016B (zh) 分词处理方法及装置
US9361404B2 (en) Offline radix tree compression with key sequence skip

Legal Events

Date Code Title Description
QB4A Licence on use of patent

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20201211

QC41 Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20220311