RU2018123353A - Предсказание вероятности появления строки с использованием последовательности векторов - Google Patents
Предсказание вероятности появления строки с использованием последовательности векторов Download PDFInfo
- Publication number
- RU2018123353A RU2018123353A RU2018123353A RU2018123353A RU2018123353A RU 2018123353 A RU2018123353 A RU 2018123353A RU 2018123353 A RU2018123353 A RU 2018123353A RU 2018123353 A RU2018123353 A RU 2018123353A RU 2018123353 A RU2018123353 A RU 2018123353A
- Authority
- RU
- Russia
- Prior art keywords
- line
- character
- vector
- multiple lines
- sequence
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Claims (48)
1. Способ определения наиболее вероятной строки из множества строк, включающий
получение множества строк, где каждая строка из множества строк содержит множество символов;
для каждой строки из множества строк создание обрабатывающим устройством первой последовательности векторов, исходя по меньшей мере из максимальной длины слова для каждого символа в строке;
передачу модулю машинного обучения первой последовательности векторов для каждой строки из множества строк;
и получение от модуля машинного обучения вероятности появления каждой строки из множества строк.
2. Способ по п. 1, отличающийся тем, что каждый вектор в первой последовательности векторов соответствует каждому символу в этой строке.
3. Способ по п. 2, отличающийся тем, что каждый вектор в первой последовательности векторов создается путем объединения первого вектора, содержащего максимальную длину слова для данного символа строки, и второго вектора, содержащего вектор символа для данного символа строки.
4. Способ по п. 3, отличающийся тем, что максимальная длина слова для каждого символа строки соответствует длине самого длинного возможного слова в строке, которая начинается с этого символа.
5. Способ по п. 4, отличающийся тем, что самое длинное возможное слово берется из словаря.
6. Способ по п. 3, отличающийся тем, что вектор символа для каждого символа строится на основе одного или более из
эмбединг символа;
единый вектор для символов алфавита, отличающегося от алфавита, используемого для строки;
вектор для частотных знаков пунктуации;
вектор для редких знаков пунктуации; или
вектор для цифр.
7. Способ по п. 1, отличающийся тем, что каждая строка из множества строк отличается от других строк из множества строк одним символом, этот символ находится в одной и той же позиции каждой из строк.
8. Способ по п. 1, отличающийся тем, что модуль машинного обучения включает
первый полносвязный слой и второй полносвязный слой для применения матричных преобразований к первой последовательности векторов каждой из строк; и
третий полносвязный слой, который используется в качестве выходного слоя.
9. Способ по п. 8, отличающийся тем, что к первому результату первого полносвязного слоя и второму результату второго полносвязного слоя применяются функция пакетной нормализации и ректификационная линейная функция активации и что к третьему выходу третьего полносвязного слоя применяется сигмоидная функция активации.
10. Способ по п. 1, отличающийся тем, что вероятность появления данной строки, имеющей значение, близкое к «один» по сравнению со значениями вероятности появления остальных строк, указывает на то, что у этой строки максимальная вероятность появления.
11. Система определения наиболее вероятной строки из множества строк, включающая следующие компоненты:
устройство памяти, в котором хранятся инструкции;
устройство обработки, подключенное к запоминающему устройству, причем устройство обработки предназначено для выполнения инструкций для
получения множества строк, где каждая строка из множества строк содержит множество символов;
для каждой строки из множества строк создания обрабатывающим устройством первой последовательности векторов, исходя по меньшей мере из максимальной длины слова для каждого символа в строке;
передачи модулю машинного обучения первой последовательности векторов для каждой строки из множества строк; и
получения от модуля машинного обучения вероятности появления каждой строки из множества строк.
12. Система по п. 11, отличающаяся тем, что каждый вектор в первой последовательности векторов соответствует каждому символу в этой строке.
13. Система по п. 12, отличающаяся тем, что каждый вектор в первой последовательности векторов создается путем объединения первого вектора, содержащего максимальную длину слова для данного символа строки, и второго вектора, содержащего вектор символа для данного символа строки.
14. Система по п. 13, отличающаяся тем, что максимальная длина слова для каждого символа строки соответствует длине самого длинного возможного слова в строке, которая начинается с этого символа.
15. Система по п. 14, отличающаяся тем, что самое длинное возможное слово берется из словаря.
16. Система по п. 13, отличающаяся тем, что вектор символа для каждого символа строится на основе одного или более из следующих вариантов:
эмбединг символа;
единый вектор для символов алфавита, отличающегося от алфавита, используемого для строки;
вектор для частотных знаков пунктуации;
вектор для редких знаков пунктуации; или
вектор для цифр.
17. Система по п. 11, отличающаяся тем, что каждая строка из множества строк отличается от других строк из множества строк одним символом, этот символ находится в одной и той же позиции каждой из строк.
18. Постоянный машиночитаемый носитель данных, содержащий инструкции, направленные на выполнения способа определения наиболее вероятной строки из множества строк, которые при обращении к ним обрабатывающего устройства приводят к выполнению обрабатывающим устройством следующих операций:
получения множества строк, где каждая строка из множества строк содержит множество символов;
для каждой строки из множества строк создания обрабатывающим устройством первой последовательности векторов, исходя по меньшей мере из максимальной длины слова для каждого символа в строке;
передачи модулю машинного обучения первой последовательности векторов для каждой строки из множества строк; и
получения от модуля машинного обучения вероятности появления каждой строки из множества строк.
19. Постоянный машиночитаемый носитель данных по п. 18, в котором модуль машинного обучения содержит
первый полносвязный слой и второй полносвязный слой для применения матричных преобразований к первой последовательности векторов каждой из строк; и
третий полносвязный слой, который используется в качестве выходного слоя.
20. Постоянный машиночитаемый носитель данных по п. 19, отличающийся тем, что к первому результату первого полносвязного слоя и ко второму результату второго полносвязного слоя применяются функция пакетной нормализации и ректификационная линейная функция активации и что к третьему выходу третьего полносвязного слоя применяется сигмоидная функция активации.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2018123353A RU2712101C2 (ru) | 2018-06-27 | 2018-06-27 | Предсказание вероятности появления строки с использованием последовательности векторов |
US16/021,689 US10657203B2 (en) | 2018-06-27 | 2018-06-28 | Predicting probability of occurrence of a string using sequence of vectors |
US16/877,245 US10963647B2 (en) | 2018-06-27 | 2020-05-18 | Predicting probability of occurrence of a string using sequence of vectors |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2018123353A RU2712101C2 (ru) | 2018-06-27 | 2018-06-27 | Предсказание вероятности появления строки с использованием последовательности векторов |
Publications (3)
Publication Number | Publication Date |
---|---|
RU2018123353A true RU2018123353A (ru) | 2019-12-27 |
RU2018123353A3 RU2018123353A3 (ru) | 2019-12-27 |
RU2712101C2 RU2712101C2 (ru) | 2020-01-24 |
Family
ID=69022501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2018123353A RU2712101C2 (ru) | 2018-06-27 | 2018-06-27 | Предсказание вероятности появления строки с использованием последовательности векторов |
Country Status (2)
Country | Link |
---|---|
US (2) | US10657203B2 (ru) |
RU (1) | RU2712101C2 (ru) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019159826A (ja) * | 2018-03-13 | 2019-09-19 | 富士通株式会社 | 表示制御プログラム、表示制御装置及び表示制御方法 |
RU2712101C2 (ru) * | 2018-06-27 | 2020-01-24 | Общество с ограниченной ответственностью "Аби Продакшн" | Предсказание вероятности появления строки с использованием последовательности векторов |
US11934414B2 (en) * | 2019-11-20 | 2024-03-19 | Canva Pty Ltd | Systems and methods for generating document score adjustments |
CN112926334A (zh) * | 2019-12-06 | 2021-06-08 | 北京三星通信技术研究有限公司 | 确定词表示向量的方法、装置及电子设备 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6272456B1 (en) * | 1998-03-19 | 2001-08-07 | Microsoft Corporation | System and method for identifying the language of written text having a plurality of different length n-gram profiles |
US6394263B1 (en) * | 1999-07-30 | 2002-05-28 | Unisys Corporation | Autognomic decision making system and method |
US7028250B2 (en) * | 2000-05-25 | 2006-04-11 | Kanisa, Inc. | System and method for automatically classifying text |
US7627596B2 (en) * | 2001-02-22 | 2009-12-01 | International Business Machines Corporation | Retrieving handwritten documents using multiple document recognizers and techniques allowing both typed and handwritten queries |
US7016844B2 (en) * | 2002-09-26 | 2006-03-21 | Core Mobility, Inc. | System and method for online transcription services |
GB2407657B (en) * | 2003-10-30 | 2006-08-23 | Vox Generation Ltd | Automated grammar generator (AGG) |
US20070067157A1 (en) * | 2005-09-22 | 2007-03-22 | International Business Machines Corporation | System and method for automatically extracting interesting phrases in a large dynamic corpus |
US7580926B2 (en) * | 2005-12-01 | 2009-08-25 | Adchemy, Inc. | Method and apparatus for representing text using search engine, document collection, and hierarchal taxonomy |
RU2487403C1 (ru) * | 2011-11-30 | 2013-07-10 | Федеральное государственное бюджетное учреждение науки Институт системного программирования Российской академии наук | Способ построения семантической модели документа |
US9037464B1 (en) * | 2013-01-15 | 2015-05-19 | Google Inc. | Computing numeric representations of words in a high-dimensional space |
CN105518656A (zh) * | 2013-08-09 | 2016-04-20 | 行为识别系统公司 | 用于多传感器数据融合的认知神经语言学行为辨识系统 |
US20150051896A1 (en) * | 2013-08-14 | 2015-02-19 | National Research Council Of Canada | Method and apparatus to construct program for assisting in reviewing |
US20170293608A1 (en) * | 2016-04-06 | 2017-10-12 | Omni Ai, Inc. | Unusual score generators for a neuro-linguistic behavioral recognition system |
US9645998B1 (en) * | 2016-06-12 | 2017-05-09 | Apple Inc. | Learning new words |
US10474753B2 (en) * | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10091354B1 (en) * | 2016-12-15 | 2018-10-02 | Sorenson Ip Holdings, Llc | Transcribing media files |
US10146768B2 (en) * | 2017-01-25 | 2018-12-04 | Google Llc | Automatic suggested responses to images received in messages using language model |
US20190138887A1 (en) * | 2017-11-01 | 2019-05-09 | Board Of Trustees Of Michigan State University | Systems, methods, and media for gated recurrent neural networks with reduced parameter gating signals and/or memory-cell units |
RU2712101C2 (ru) * | 2018-06-27 | 2020-01-24 | Общество с ограниченной ответственностью "Аби Продакшн" | Предсказание вероятности появления строки с использованием последовательности векторов |
US11093579B2 (en) * | 2018-09-05 | 2021-08-17 | Intel Corporation | FP16-S7E8 mixed precision for deep learning and other algorithms |
-
2018
- 2018-06-27 RU RU2018123353A patent/RU2712101C2/ru active
- 2018-06-28 US US16/021,689 patent/US10657203B2/en active Active
-
2020
- 2020-05-18 US US16/877,245 patent/US10963647B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
RU2018123353A3 (ru) | 2019-12-27 |
US20200004819A1 (en) | 2020-01-02 |
US20200279079A1 (en) | 2020-09-03 |
US10657203B2 (en) | 2020-05-19 |
RU2712101C2 (ru) | 2020-01-24 |
US10963647B2 (en) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2018123353A (ru) | Предсказание вероятности появления строки с использованием последовательности векторов | |
US11657233B2 (en) | Systems and methods for unifying question answering and text classification via span extraction | |
CN110046244B (zh) | 一种用于问答系统的答案选择方法 | |
CN110321566B (zh) | 中文命名实体识别方法、装置、计算机设备和存储介质 | |
US10025773B2 (en) | System and method for natural language processing using synthetic text | |
US10686589B2 (en) | Combining hashes of data blocks | |
US20060168494A1 (en) | Error protecting groups of data words | |
CN107704506A (zh) | 智能应答的方法和装置 | |
JP2009524852A5 (ru) | ||
CN104766077B (zh) | 一种识别图片中的字符的方法和装置 | |
CN110597971B (zh) | 基于神经网络的自动问答装置、方法及可读存储介质 | |
RU2015102520A (ru) | Способы и системы автоматического распознавания символов с использованием дерева решений | |
WO2021027218A1 (zh) | 文本分类的方法、装置以及计算机可读介质 | |
RU2019141908A (ru) | Идентификация блоков связанных слов в документах сложной структуры | |
US20120109633A1 (en) | Method and system for diacritizing arabic language text | |
CN107153469B (zh) | 为输入数据搜索匹配候选项的方法、数据库创建方法、装置及计算机程序产品 | |
CN113282707A (zh) | 基于Transformer模型的数据预测方法、装置、服务器及存储介质 | |
CN109102070B (zh) | 卷积神经网络数据的预处理方法和装置 | |
CN103810280A (zh) | 一种微博话题检测方法 | |
CN111666965B (zh) | 改进图像识别的多级别深度特征和多匹配器融合 | |
KR20160116980A (ko) | Ldpc 복호기의 vss 알고리즘을 위한 h 행렬의 스케줄링 장치 및 그 방법 | |
CN110222340B (zh) | 书籍人物姓名识别模型的训练方法、电子设备及存储介质 | |
KR102529987B1 (ko) | Crf 기반 한자 문헌의 문장 및 어구 식별 장치 및 방법 | |
CN110969016B (zh) | 分词处理方法及装置 | |
US9361404B2 (en) | Offline radix tree compression with key sequence skip |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
QB4A | Licence on use of patent |
Free format text: LICENCE FORMERLY AGREED ON 20201211 Effective date: 20201211 |
|
QC41 | Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right |
Free format text: LICENCE FORMERLY AGREED ON 20201211 Effective date: 20220311 |