WO2021221535A1 - System and method for augmenting a training set for machine learning algorithms - Google Patents

System and method for augmenting a training set for machine learning algorithms Download PDF

Info

Publication number
WO2021221535A1
WO2021221535A1 PCT/RU2020/000696 RU2020000696W WO2021221535A1 WO 2021221535 A1 WO2021221535 A1 WO 2021221535A1 RU 2020000696 W RU2020000696 W RU 2020000696W WO 2021221535 A1 WO2021221535 A1 WO 2021221535A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
data
texts
vector
training sample
Prior art date
Application number
PCT/RU2020/000696
Other languages
French (fr)
Russian (ru)
Inventor
Татьяна Олеговна ШАВРИНА
Original Assignee
Публичное Акционерное Общество "Сбербанк России"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Публичное Акционерное Общество "Сбербанк России" filed Critical Публичное Акционерное Общество "Сбербанк России"
Publication of WO2021221535A1 publication Critical patent/WO2021221535A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the present invention relates to the field of computer technology, in particular to solutions for working with machine learning algorithms during the formation of training samples.
  • Data augmentation can mean an increase in the volume of a training sample in machine learning algorithms, and the increase in volume can be either artificial, produced by modifying the available sample, or by filtering suitable open resources based on the available sample.
  • the task of augmentation of textual data is required in a wide range of areas and industries related to machine learning.
  • the use of data augmentation makes the systems more resistant to the variability of commands and natural synonyms in speech.
  • the solution to the existing technical problem in the art is to create a data augmentation system based on the analysis of data distribution by generating a global text index supplemented from open data sources.
  • the technical result is to ensure the selection of text data for augmentation of the training sample based on the characteristics of the text of the input training sample.
  • a training sample augmentation system for machine learning algorithms, which contains: at least one processor; at least one memory means; an input data processing module, configured obtaining text data that form the initial training sample; data normalization, in which the text is divided into sentences and the text is cleared of characters; a data vectorization module capable of converting normalized sentences into vector form, while during said conversion, each received sentence is divided into minimum significant parts, which are words and punctuation marks; tokenization of the mentioned minimum significant parts; formation of vector representations for each token; and generating an averaged vector representation of the normalized sentence; a text data enrichment module containing a set of text data collected from open sources and metadata for their vectorization and building a search index; a text index module, configured to generate a text index based on vector representations of text data; a training sample augmentation module, configured to supplement and / or adjust the original text sample based on the selection of relevant vector representations of tokens in the text data enrichment module by determining the proximity measure of tokens in the vector space
  • the data vectorization module generates an averaged vector representation of the text.
  • the dimension of the averaged vector representation is 768: 1.
  • the metadata includes at least one of: link source in the global Internet, date of source, genre, date of creation, author data, heading, subject, number of words in the source.
  • the measure of proximity of tokens and texts in space is a cosine measure of proximity.
  • each token has unique coordinates.
  • the minimum and maximum boundary values of the text space of the initial training sample are determined.
  • the training sample is augmented by adding new texts with coordinates that do not go beyond the boundary values.
  • the initial training sample is supplemented to a user-specified number of words.
  • an iterative search for the nearest texts in the vector space is carried out for each text from the sentences of the initial selection.
  • the uniqueness of the selected texts is determined based on the metadata stored in the text data enrichment module.
  • the claimed solution is also carried out using a computer-implemented method for augmentation of a training sample for machine learning algorithms, the method being performed using at least one processor and contains the stages at which: receive text data of the original training sample; perform data normalization, in which the text is divided into sentences and the text is cleared of characters; vectorization of normalized sentences is performed, while during the mentioned transformation the following is carried out: splitting each received sentence into minimum significant parts, which are words and punctuation marks (tokenization); formation of vector representations for each normalized text based on the tokens (significant parts) included in it; form a text index based on vector representations of text data, while the text index is formed from a vector space formed from texts located in open sources and metadata; augmentation of the initial training sample is carried out using the selection of relevant vector representations of the texts based on the determination of the measure of proximity in the vector space based on the search index.
  • a computer-implemented method for augmentation of a training sample for machine learning algorithms the method being performed using at least one processor and contains the stages
  • the dimension of the averaged vector representation is 768: 1.
  • the metadata includes at least one of: link source in the global Internet, date of source, genre, date of creation, author data, heading, subject, number of words in the source.
  • the measure of proximity of tokens and texts in space is a cosine measure of proximity.
  • each token has unique coordinates.
  • the minimum and maximum boundary values of the text space of the initial training sample are determined.
  • the training sample is augmented by adding new texts having coordinates that do not go beyond the boundary values.
  • the initial training sample is supplemented to a user-specified number of words.
  • an iterative search of the nearest texts in the vector space is carried out for each text from the sentences of the initial selection.
  • the uniqueness of the selected texts is determined based on metadata.
  • FIG. 1 illustrates an example of the claimed system.
  • FIG. 2 illustrates a block diagram of the claimed method.
  • FIG. 3 illustrates a general view of a computing device. CARRYING OUT THE INVENTION
  • the claimed solution is implemented using the computer system (100) shown in FIG. 1, which may be executed on a computing device such as a personal computer, server, or the like.
  • the training sample augmentation system includes the main functional elements, such as: the input data processing module (101), the vectorization module (102), the data enrichment module (103), the text index module (104) and the augmentation module (105).
  • the input data processing module (101) includes preprocessing user texts sent to the augmentation system. Also, the module (101) performs their cleaning and transformation into a common space of numerical features. [0039]
  • the input text data is divided into sentences. Existing open technologies make it possible to carry out this operation for the Russian language without additional development.
  • the input text sample format is usually .txt.
  • the division of the received text into sentences is carried out using open libraries in the python3 language (for example, https: //pypi.orn/proiect/rusenttokenize/).
  • the input selection sentences are divided into tokens by splitting sentences by spaces and separating punctuation marks from them.
  • the module (101) clears texts from special characters. Since for the vector space it is necessary to represent the text as a point in the multidimensional space of the features of words (vector representations), then special characters that are not related to letters, numbers and punctuation marks can introduce noise into this vector and shift the position of the text in the space of features relative to others, which is critical for the final quality of the selection and adjustment of the text selection during augmentation.
  • incoming sentences are filtered from special characters that are not included in the list of Cyrillic and Latin letters, numbers and symbols from a standard 105-key keyboard. Such cleaning allows you to clear the text of noise that will introduce unknown universal model rare symbols, and to make the resulting vectors more accurate. Filtering is done using regular expressions.
  • the vectorization module (102) is one or more machine learning models for converting textual information into a vector form - embedding.
  • the cleaned sentences of the text obtained using the module (101) are subject to vectorization.
  • Machine learning models based on word-by-word vectorization or obtaining the vector of the entire sentence context as a whole can be applied.
  • ANNs artificial neural networks
  • the module (102) can generate vector representations of texts and sentences in (embeddings). Embeddings obtained on the basis of a universal model with generalized knowledge about the variability of texts allow us to assess their position in the multidimensional space of text properties in general, and to supplement the sample with texts similar in their numerical characteristics to the original texts of the user's training sample.
  • the model acts as a source for receiving offer embeddings.
  • the vectorization module (102) based on the normalized text data of the input training sample received from the module (101), splits each sentence into the least significant parts - tokens (words, punctuation marks).
  • Tokenization (the division of text into tokens) occurs using an open technology suitable for the BERT model, for example, BertTokenizer (see. https://pypi.org/proiect/pytorch-pretrained-bert/ ' ). Based on the results of tokenization, a list of strings corresponding to the offer tokens is generated. For each token, using the vectorization module (102), an embedding is transmitted, which is taken from the last - 1 loro layer of the BERT model. The embedding has a dimension of 768 by 1. For each sentence, a corresponding embedding of a given dimension is formed (in this solution, the vector dimension is 1 by 768) using a neural network model. In particular, this embedding can be formed using the token averaging operation.
  • the data enrichment module (103) is a database with texts from open data sources, for example, web resources with various versions of texts, literature, and the like. Module (103) contains texts with a total volume of 10 billion words, while it is designed with the possibility of constant filling, which provides a large variability of the contexts of material in Russian, taking into account various styles, genres and types of materials.
  • the information contained in the enrichment module (103) serves as a source material, a text corpus for creating a full-fledged index of natural texts, the materials of which will be supplemented by the transmitted sample.
  • the module (103) stores available metadata about the text, such as:
  • the text index module (104) generates a hierarchical index based on the previously vectorized texts from the module (103). Vectorization of text data in the module (103) is carried out using the vectorization module (102). The index is built using the library (https://pypi.org/proiect/nmslib/ ').
  • This library has indexing methods that are most suitable for building an index on embeddings: you can build a hierarchical index, selecting the most similar text based on the cosine measure. This measure of proximity is a popular metric used to obtain language objects (words, sentences, texts) that are as similar as possible in their properties encoded in embeddings.
  • the cosine measure of proximity is determined using the dot product and the norm between two vectors:
  • the cosine measure is just a particular example of the indexing method, it can be anything. In this case, it is appropriate to use a hierarchical index due to the fact that it is quite compact and at the same time provides quick retrieval of the nearest objects by embeddings. It is potentially possible to use any other methods for constructing an index on a cosine measure (sparse cosine similarity indexing), but due to the considerable dimension of embeddings (usually they include sequences from 300 to 2000 numbers, in the stated solution - 768), hierarchical methods perform the fastest search the closest object in the index to the query object.
  • test index was collected, built on 100,000 random sentences from Russian Wikipedia and the Common Crawl web corpus (blogs, news, advertising). The headlines of news and popular blog posts were collected and the most similar sentences from the test index were selected for them: in the examples below, you can observe how the theme, emotional coloring of sentences, style and lexical signs are preserved in the selected sentences.
  • the sample augmentation module (105) is a set of models for determining the completeness of the sample obtained by the module (101). For the subsequent augmentation of the initial training sample, module (105) can operate in two modes of operation: 1) Creation of an adjusted and / or augmented sample;
  • FIG. 2 shows a block diagram of the implementation of the method for augmentation of the training sample (200).
  • the user loads the original text sample into the system, which is processed by the module (101) and subsequently converted into a vector representation (202).
  • extreme values are calculated for each embedding variable - minimum and maximum, for each of the 768 variables in the embedding.
  • the obtained 768 minimum and maximums form a hyperspace in the feature space of the augmentation model used by the module (105).
  • the sample is less than the number of words declared by the user, then the following operation occurs: all examples obtained from the feature hyperspace are sorted by similarity based on the calculation of the cosine measure of proximity to the examples in the user sample. Each example from the user selection is looped through, and the N closest examples are selected for it. The parameter N is iteratively increased by 1 until the number of words in the resulting sample is the declared number.
  • Execution of the sample augmentation method (200) allows selecting the most relevant text data existing in the constantly generated space of the hierarchical text index, which are used to enrich the user's input training sample.
  • the claimed solution can be embedded in other systems to improve their work, for example, a system for automatic marking of entities in the text (named entity recognition task - entities mean persons, locations, names of organizations, sometimes additional entities; the task is complex, so how to solve it requires the selection of a large number of marked examples).
  • name entity recognition task entities mean persons, locations, names of organizations, sometimes additional entities; the task is complex, so how to solve it requires the selection of a large number of marked examples).
  • the user loads unlabeled data and examples of entities, then the data is artificially augmented according to the method described above (200), the marking of entities takes into account a larger number of contexts that are formed during sample augmentation.
  • FIG. 3 shows a general view of the computing device (300).
  • a user device for generating and loading a sample a computing device (100) for performing the augmentation method (200) and other unrepresented devices can be implemented that can participate in the general information architecture of the claimed solution.
  • the computing device (300) contains one or more processors (301) united by a common bus of information exchange, memory means such as RAM (302) and ROM (303), input / output interfaces (304), devices input / output (305), and a device for networking (306).
  • the processor (301) (or multiple processors, multi-core processor) can be selected from a range of devices currently widely used, for example, Intel TM, AMD TM, Apple TM, Samsung Exynos TM, MediaTEK TM, Qualcomm Snapdragon TM and etc.
  • the processor (301) can also include a graphics processor or work in conjunction with a graphics accelerator, for example, Nvidia, AMD Radeon, etc., which can be used to perform computational operations when executing machine learning algorithms.
  • RAM (302) is a random access memory and is intended for storing machine-readable instructions executed by the processor (301) for performing the necessary operations for logical data processing.
  • RAM (302) contains executable instructions of the operating system and corresponding software components (applications, software modules, etc.).
  • ROM (303) is one or more persistent storage devices, such as a hard disk drive (HDD), solid state data storage device (SSD), flash memory (EEPROM, NAND, etc.), optical storage media ( CD-R / RW, DVD-R / RW, BlueRay Disc, MD), etc.
  • HDD hard disk drive
  • SSD solid state data storage device
  • EEPROM electrically erasable programmable read-only memory
  • NAND flash memory
  • optical storage media CD-R / RW, DVD-R / RW, BlueRay Disc, MD
  • I / O interfaces are used to organize the operation of the components of the device (300) and to organize the operation of external connected devices.
  • the choice of the appropriate interfaces depends on the specific design of the computing device, which can be, but are not limited to: PCI, AGP, PS / 2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS / Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232, etc.
  • I / O means for example, a keyboard, display (monitor), touch display, touch pad, joystick, mouse manipulator, light pen, stylus, touch panel, trackball, speakers, microphone, augmented reality, optical sensors, tablet, light indicators, projector, camera, biometric identification (retina scanner, fingerprint scanner, voice recognition module), etc.
  • the networking means (306) allows the device (300) to transmit data via an internal or external computer network, for example, Intranet, Internet, LAN, and the like.
  • One or more means (306) may be used, but not limited to: Ethernet card, GSM modem, GPRS modem, LTE modem, 5G modem, satellite communication module, NFC module, Bluetooth and / or BLE module, Wi-Fi module and dr.
  • satellite navigation aids can also be used as part of the device (300), for example, GPS, GLONASS, BeiDou, Galileo.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The invention relates to the field of computing. The technical result consists in allowing the selection of text data for the augmentation of a training set, based on characteristics of a text in an input training set. Disclosed is a computer-implemented method for augmenting a training set for machine learning algorithms, including the steps of: obtaining text data from an initial training set; performing data normalization, during which the text is divided into sentences and stripped of symbols; vectorizing the normalized sentences, wherein this transformation includes the breakdown of each sentence obtained into its smallest meaningful parts in the form of words and punctuation marks (tokenization) and the formation of vector representations for each normalized text on the basis of the tokens (meaningful parts) contained therein; generating a text index on the basis of the vector representations of the text data, wherein said text index is generated from a vector space formed by open-source texts and metadata; augmenting the initial training set by selecting relevant vector representations of texts by virtue of determining the similarity measure in the vector space on the basis of a search index.

Description

СИСТЕМА И СПОСОБ АУГМЕНТАЦИИ ОБУЧАЮЩЕЙ ВЫБОРКИ ДЛЯ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ SYSTEM AND METHOD OF TRAINING SAMPLING AUGMENTATION FOR MACHINE LEARNING ALGORITHMS
ОБЛАСТЬ ТЕХНИКИ FIELD OF TECHNOLOGY
[0001] Настоящее изобретение относится к области компьютерной техники, в частности к решениям для работы с алгоритмами машинного обучения в ходе формирования обучающих выборок. [0001] The present invention relates to the field of computer technology, in particular to solutions for working with machine learning algorithms during the formation of training samples.
УРОВЕНЬ ТЕХНИКИ LEVEL OF TECHNOLOGY
[0002] Под аугментацией данных может подразумеваться увеличение объема обучающей выборки в алгоритмах машинного обучения, причем увеличение объема может быть как искусственное, произведенное за счет видоизменения имеющейся выборки, так и за счет фильтрации подходящих открытых ресурсов с опорой на имеющуюся выборку. В настоящий момент задача аугментации текстовых данных требуется в широком ряде направлений и отраслей, связанных с машинным обучением. В частности, в построении диалоговых систем (чат-боты, умные помощники) применение аугментации данных делает системы более устойчивыми к вариативности команд и естественной синонимии в речи. [0003] В промышленных областях, где требуется классификация документов, но собственных текстовых данных в отрасли накоплено мало (или они недоступны для разработчиков из-за своей закрытости - это медицинские данные, юридические документы, государственная документация), также прибегают к аугментации данных, чтобы улучшить качество работы классификации в условиях реального применения. [0002] Data augmentation can mean an increase in the volume of a training sample in machine learning algorithms, and the increase in volume can be either artificial, produced by modifying the available sample, or by filtering suitable open resources based on the available sample. Currently, the task of augmentation of textual data is required in a wide range of areas and industries related to machine learning. In particular, in the construction of dialogue systems (chat bots, smart assistants), the use of data augmentation makes the systems more resistant to the variability of commands and natural synonyms in speech. [0003] In industrial areas where classification of documents is required, but the industry has accumulated little own text data (or they are not available to developers due to their closed nature - these are medical data, legal documents, government documents), they also resort to data augmentation in order to improve the quality of classification in real-world conditions.
[0004] Также одним из направлений, нуждающихся в аугментированных данных, является извлечение информации (извлечение именованных сущностей и связей между ними). Огромная вариативность имен персоналий, названий компаний и локаций требует от обучающей выборки большого объема и разнообразных контекстов, в которых сущности употребляются. Открытые данные в этом направлении покрывают лишь малую часть возможных случаев употребления сущностей, и не являются достаточными для промышленной реализации таких систем. [0004] Also, one of the areas in need of augmented data is information extraction (extraction of named entities and relationships between them). The enormous variability in the names of personalities, company names and locations requires a large volume of training samples and a variety of contexts in which entities are used. Open data in this direction covers only a small part of the possible use cases of entities, and is not sufficient for the industrial implementation of such systems.
[0005] В настоящее время используется ряд подходов, каждый из которых обладает своими преимуществами и недостатками. Случайные перестановки слов в данных, случайные удаления слов, замены слов на синонимы и морфологические аналоги. [0005] A number of approaches are currently used, each with its own advantages and disadvantages. Random permutations of words in data, random deletions of words, replacement of words with synonyms and morphological analogues.
[0006] Известен способ аугментации данных ( https://arxiv.org/abs/1901.11196 EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks), который применяется для задач, где реализуется анализ последовательностей и классификация, но при этом часть данных становится трудночитаемой и понятной для пользователя, и не воспринимается носителями языка как корректное, понятное высказывание. [0006] A known method of data augmentation (https://arxiv.org/abs/1901.11196 EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks), which is used for tasks where sequence analysis and classification are implemented, but at the same time part of the data becomes difficult to read and understandable for the user, and is not perceived by native speakers as a correct, understandable statement.
[0007] Известно также применение онтологического/семантического подхода. Некоторые слова в данных меняются на более общие/ частные понятия, что помогает системам делать более общие и более точные частные выводы, однако, приносит пользу только в задачах, где не требуется устойчивость относительно формулировок предложения/команд/порядка слов/стиля высказывания. Достаточно небольшое количество слов языка попадает в структурированную онтологию. [0007] It is also known to apply an ontological / semantic approach. Some words in the data change to more general / particular concepts, which helps the systems to make more general and more accurate particular conclusions, however, it is useful only in problems where stability with respect to the formulation of the sentence / commands / word order / style of expression is not required. A fairly small number of words in a language fall into a structured ontology.
[0008] Автоматический перевод. Используются открытые системы перевода с языка на язык (Google Translate). Данные переводятся на несколько популярных языков, затем происходит обратный перевод на исходный язык. Подход, дающий наиболее полное перефразирование исходных данных, однако достаточно часто меняющий смысл исходных высказываний настолько далеко, что увеличивает зашумленность исходных данных. [0008] Automatic translation. Open language-to-language translation systems (Google Translate) are used. The data is translated into several popular languages, then back-translated into the original language. An approach that gives the most complete rephrasing of the initial data, but quite often changes the meaning of the initial statements so far that it increases the noise level of the initial data.
[0009] Таким образом, существенным недостатком известных подходов является отсутствие возможности дополнения/корректировки обучающих выборок с сохранением релевантности данных по отношению к входной информации, для целей исключения потери смысловой составляющей текста. [0009] Thus, a significant drawback of the known approaches is the inability to supplement / correct training samples while maintaining the relevance of the data in relation to the input information, in order to avoid the loss of the semantic component of the text.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ SUMMARY OF THE INVENTION
[0010] Решением существующей технической проблемы в данной области техники является создание системы аугментации данных на основании анализа распределения данных с помощью формирования глобального текстового индекса, дополняемого из открытых источников данных. [0010] The solution to the existing technical problem in the art is to create a data augmentation system based on the analysis of data distribution by generating a global text index supplemented from open data sources.
[0011] Технический результат заключается в обеспечении подбора текстовых данных для аугментации обучающей выборки на основании характеристик текста входной обучающей выборки. [0011] The technical result is to ensure the selection of text data for augmentation of the training sample based on the characteristics of the text of the input training sample.
[0012] Заявленный результат достигается с помощью системы аугментации обучающей выборки для алгоритмов машинного обучения, которая содержит: по меньшей мере один процессор; по меньшей мере одно средство памяти; модуль обработки входных данных, выполненный с возможностью получения текстовых данных, формирующих исходную обучающую выборку; нормализацию данных, при которой выполняется разделение текста на предложения и очистка текста от символов; модуль векторизации данных, выполненный с возможностью преобразования в векторную форму нормализованных предложений, при этом в ходе упомянутого преобразования осуществляется разбиение каждого полученного предложения на минимально значимые части, представляющие собой слова и знаки препинания; токенизация упомянутых минимально значимых частей; формирование векторных представлений для каждого токена; и формирование усредненного векторного представления нормализованного предложения; модуль обогащения текстовых данных, содержащий набор текстовых данных собираемых из открытых источников и метаданные, для их векторизации и построения поискового индекса; модуль текстового индекса, выполненный с возможностью формирования текстового индекса по векторным представлениям текстовых данных; модуль аугментации обучающей выборки, выполненный с возможностью дополнения и/или корректировки исходной текстовой выборки на основании подбора релевантных векторных представлений токенов в модуле обогащения текстовых данных с помощью определения меры близости токенов в векторном пространстве. [0012] The claimed result is achieved using a training sample augmentation system for machine learning algorithms, which contains: at least one processor; at least one memory means; an input data processing module, configured obtaining text data that form the initial training sample; data normalization, in which the text is divided into sentences and the text is cleared of characters; a data vectorization module capable of converting normalized sentences into vector form, while during said conversion, each received sentence is divided into minimum significant parts, which are words and punctuation marks; tokenization of the mentioned minimum significant parts; formation of vector representations for each token; and generating an averaged vector representation of the normalized sentence; a text data enrichment module containing a set of text data collected from open sources and metadata for their vectorization and building a search index; a text index module, configured to generate a text index based on vector representations of text data; a training sample augmentation module, configured to supplement and / or adjust the original text sample based on the selection of relevant vector representations of tokens in the text data enrichment module by determining the proximity measure of tokens in the vector space.
[0013] В одном из частных примеров реализации системы модуль векторизации данных формирует усредненное векторное представление текста. [0013] In one of the particular examples of the system implementation, the data vectorization module generates an averaged vector representation of the text.
[0014] В другом частном примере реализации системы размерность усредненного векторного представления равна 768:1. [0014] In another particular example of the system implementation, the dimension of the averaged vector representation is 768: 1.
[0015] В другом частном примере реализации системы метаданные включают в себя по меньшей мере одно из: ссылка источник в глобальной сети Интернет, дата источника, жанр, дата создания, данные автора, рубрика, тематика, количество слов в источнике. [0015] In another particular example of the implementation of the system, the metadata includes at least one of: link source in the global Internet, date of source, genre, date of creation, author data, heading, subject, number of words in the source.
[0016] В другом частном примере реализации системы мера близости токенов и текстов в пространстве представляет собой косинусную меру близости. [0017] В другом частном примере реализации системы в векторном пространстве каждый токен имеет уникальные координаты. [0016] In another particular example of the implementation of the system, the measure of proximity of tokens and texts in space is a cosine measure of proximity. [0017] In another particular example of system implementation in vector space, each token has unique coordinates.
[0018] В другом частном примере реализации системы на основании координат определяются минимальные и максимальные граничные значения пространства текстов исходной обучающей выборки. [0018] In another particular example of the implementation of the system, based on the coordinates, the minimum and maximum boundary values of the text space of the initial training sample are determined.
[0019] В другом частном примере реализации системы аугментация обучающей выборки осуществляется с помощью добавления новых текстов, имеющих координаты, не выходящие за пределы граничных значений. [0019] In another particular example of the implementation of the system, the training sample is augmented by adding new texts with coordinates that do not go beyond the boundary values.
[0020] В другом частном примере реализации системы дополнение исходной обучающей выборки осуществляется до заданного пользователем количества слов. [0020] In another particular example of the implementation of the system, the initial training sample is supplemented to a user-specified number of words.
[0021] В другом частном примере реализации системы осуществляется итеративный поиск ближайших текстов в векторном пространстве для каждого текста из предложений исходной выборки. [0021] In another particular example of the implementation of the system, an iterative search for the nearest texts in the vector space is carried out for each text from the sentences of the initial selection.
[0022] В другом частном примере реализации системы уникальность подбираемых текстов определяется на основании метаданных, хранимых в модуле обогащения текстовых данных. [0022] In another particular example of the implementation of the system, the uniqueness of the selected texts is determined based on the metadata stored in the text data enrichment module.
[0023] Заявленное решение также осуществляется с помощью компьютерно- реализуемого способа аугментации обучающей выборки для алгоритмов машинного обучения, при этом способ выполняется с помощью по меньшей мере одного процессора и содержит этапы, на которых: получают текстовые данные исходной обучающей выборки; выполняют нормализацию данных, при которой выполняется разделение текста на предложения и очистка текста от символов; выполняют векторизацию нормализованных предложений, при этом в ходе упомянутого преобразования осуществляется: разбиение каждого полученного предложения на минимально значимые части, представляющие собой слова и знаки препинания (токенизация); формирование векторных представлений для каждого нормализованного текста на основании входящих в него токенов (значимых частей); формируют текстовый индекс по векторным представлениям текстовых данных, при этом текстовый индекс формируется из векторного пространства, формируемого из текстов, расположенных в открытых источниках, и метаданных; осуществляют аугментацию исходной обучающей выборки с помощью подбора релевантных векторных представлений текстов на основании определения меры близости в векторном пространстве на основании поискового индекса. [0023] The claimed solution is also carried out using a computer-implemented method for augmentation of a training sample for machine learning algorithms, the method being performed using at least one processor and contains the stages at which: receive text data of the original training sample; perform data normalization, in which the text is divided into sentences and the text is cleared of characters; vectorization of normalized sentences is performed, while during the mentioned transformation the following is carried out: splitting each received sentence into minimum significant parts, which are words and punctuation marks (tokenization); formation of vector representations for each normalized text based on the tokens (significant parts) included in it; form a text index based on vector representations of text data, while the text index is formed from a vector space formed from texts located in open sources and metadata; augmentation of the initial training sample is carried out using the selection of relevant vector representations of the texts based on the determination of the measure of proximity in the vector space based on the search index.
[0024] В одном из частных примеров осуществления способа при векторизации текстовых данных формируется усредненное векторное представление текста. [0024] In one of the particular examples of the implementation of the method, when vectorizing text data, an averaged vector representation of the text is generated.
[0025] В другом частном примере осуществления способа размерность усредненного векторного представления равна 768: 1. [0025] In another particular embodiment of the method, the dimension of the averaged vector representation is 768: 1.
[0026] В другом частном примере осуществления способа метаданные включают в себя по меньшей мере одно из: ссылка источник в глобальной сети Интернет, дата источника, жанр, дата создания, данные автора, рубрика, тематика, количество слов в источнике. [0027] В другом частном примере осуществления способа мера близости токенов и текстов в пространстве представляет собой косинусную меру близости. [0026] In another particular embodiment of the method, the metadata includes at least one of: link source in the global Internet, date of source, genre, date of creation, author data, heading, subject, number of words in the source. [0027] In another particular embodiment of the method, the measure of proximity of tokens and texts in space is a cosine measure of proximity.
[0028] В другом частном примере осуществления способа в векторном пространстве каждый токен имеет уникальные координаты. [0028] In another particular embodiment of the method in vector space, each token has unique coordinates.
[0029] В другом частном примере осуществления способа на основании координат определяются минимальные и максимальные граничные значения пространства текстов исходной обучающей выборки. [0029] In another particular embodiment of the method, based on the coordinates, the minimum and maximum boundary values of the text space of the initial training sample are determined.
[0030] В другом частном примере осуществления способа аугментация обучающей выборки осуществляется с помощью добавления новых текстов, имеющих координаты, не выходящие за пределы граничных значений. [0030] In another particular embodiment of the method, the training sample is augmented by adding new texts having coordinates that do not go beyond the boundary values.
[0031] В другом частном примере осуществления способа дополнение исходной обучающей выборки осуществляется до заданного пользователем количества слов. [0031] In another particular embodiment of the method, the initial training sample is supplemented to a user-specified number of words.
[0032] В другом частном примере осуществления способа осуществляется итеративный поиск ближайших текстов в векторном пространстве для каждого текста из предложений исходной выборки. [0032] In another particular embodiment of the method, an iterative search of the nearest texts in the vector space is carried out for each text from the sentences of the initial selection.
[0033] В другом частном примере осуществления способа уникальность подбираемых текстов определяется на основании метаданных. [0033] In another particular embodiment of the method, the uniqueness of the selected texts is determined based on metadata.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ BRIEF DESCRIPTION OF DRAWINGS
[0034] Фиг. 1 иллюстрирует пример заявленной системы. [0034] FIG. 1 illustrates an example of the claimed system.
[0035] Фиг. 2 иллюстрирует блок-схему заявленного способа. [0035] FIG. 2 illustrates a block diagram of the claimed method.
[0036] Фиг. 3 иллюстрирует общий вид вычислительного устройства. ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ [0036] FIG. 3 illustrates a general view of a computing device. CARRYING OUT THE INVENTION
[0037] Заявленное решение осуществляется с помощью компьютерной системы (100), представленной на Фиг. 1, которая может выполняться на базе компьютерного устройства, например, персонального компьютера, сервера и т.п. Система аугментации обучающих выборок включает в себя основные функциональные элементы, такие как: модуль обработки входных данных (101), модуль векторизации (102), модуль обогащения данных (103), модуль текстового индекса (104) и модуль аугментации (105). [0037] The claimed solution is implemented using the computer system (100) shown in FIG. 1, which may be executed on a computing device such as a personal computer, server, or the like. The training sample augmentation system includes the main functional elements, such as: the input data processing module (101), the vectorization module (102), the data enrichment module (103), the text index module (104) and the augmentation module (105).
[0038] Модуль обработки входных данных (101) включает в себя предобработку текстов пользователя, передаваемых в систему аугментации. Также, модуль (101) осуществляет их чистку и преобразование в общее пространство численных признаков. [0039] Входные текстовые данные разделяются на предложения. Существующие открытые технологии позволяют провести данную операцию для русского языка без дополнительной разработки. Входной формат текстовой выборки, как правило, представляет собой .txt. Деление полученного текста на предложения осуществляется с помощью открытых библиотек на языке python3 (например, https://pypi.orn/proiect/rusenttokenize/ ). Также с помощью модуля (101) выполняется деление предложений входной выборки на токены с помощью разбиения предложений по пробелам и отделения от них знаков препинания. [0038] The input data processing module (101) includes preprocessing user texts sent to the augmentation system. Also, the module (101) performs their cleaning and transformation into a common space of numerical features. [0039] The input text data is divided into sentences. Existing open technologies make it possible to carry out this operation for the Russian language without additional development. The input text sample format is usually .txt. The division of the received text into sentences is carried out using open libraries in the python3 language (for example, https: //pypi.orn/proiect/rusenttokenize/). Also, using the module (101), the input selection sentences are divided into tokens by splitting sentences by spaces and separating punctuation marks from them.
[0040] На выходе модуля обработки входных данных (101) формируется список предложения и токенов в них. [0040] At the output of the input data processing module (101), a list of the offer and the tokens therein is generated.
Пример: Example:
“Все люди смертны. Сократ — человек. Следовательно, Сократ смертен.”
Figure imgf000008_0001
“All people are mortal. Socrates is a man. Therefore Socrates is mortal. "
Figure imgf000008_0001
[“Все люди смертны.”, “Сократ — человек.”, “Следовательно, Сократ смертен.” ] ["All people are mortal.", "Socrates is a man.", "Therefore, Socrates is mortal." ]
[0041] Далее модуль (101) осуществляет очистку текстов от спецсимволов. Так как для векторного пространства необходимо представлять текст как точку в многомерном пространстве признаков слов (векторных представлений), то спецсимволы, не относящиеся к буквам, цифрам и знаками препинания способны внести в этот вектор шум и сместить положение текста в пространстве признаков относительно других, что критично для итогового качества подбора и корректировки текстовой выборки в ходе аугментации. [0041] Next, the module (101) clears texts from special characters. Since for the vector space it is necessary to represent the text as a point in the multidimensional space of the features of words (vector representations), then special characters that are not related to letters, numbers and punctuation marks can introduce noise into this vector and shift the position of the text in the space of features relative to others, which is critical for the final quality of the selection and adjustment of the text selection during augmentation.
[0042] С помощью обработки входной информации модулем (101) происходит фильтрация входящих предложений от спецсимволов, не входящих в список кириллических и латинских букв, чисел и символов со стандартной 105-клавишной клавиатуры. Такая очистка позволяет очистить текст от шумов, которые внесут неизвестные универсальной модели редкие символы, и сделать полученные вектора более точными. Фильтрация происходит при помощи регулярных выражений. [0042] By processing the input information by the module (101), incoming sentences are filtered from special characters that are not included in the list of Cyrillic and Latin letters, numbers and symbols from a standard 105-key keyboard. Such cleaning allows you to clear the text of noise that will introduce unknown universal model rare symbols, and to make the resulting vectors more accurate. Filtering is done using regular expressions.
Пример: Example:
«· _Мама_ мыла раму. © » — » «Мама мыла раму.» “· _Mama_ was washing the frame. © "-" "Mom washed the frame."
На выходе работы модуля (101) получается список предложений входной обучающей выборки, очищенных от спецсимволов. At the output of the module (101), a list of sentences of the input training sample, cleared of special characters, is obtained.
[0043] Модуль векторизации (102) представляет собой одну или несколько моделей машинного обучения для преобразования текстовой информации в векторную форму - эмбеддинг. Векторизации подлежат очищенные предложения текста, полученные с помощью модуля (101). Могут применяться модели машинного обучения, основанные на пословной векторизации или получении вектора всего контекста предложения целиком. [0044] В модуле векторизации (102) предпочтительно применять модели машинного обучения, например, искусственные нейронные сети (ИНС), которые способны делать генерализированный вывод о мире, обученные на большом объеме закрытых данных (тексты на десятки миллиардов слов - обычно корпуса новостей, блогов, литературы, в том числе технической, открытых энциклопедий), для обработки и анализа свойств новых текстов. Такие модели, как BERT, ELMo, ULMFit, XLNet, RoBerta и другие, уже успешно применяются для русского языка в задачах обработки малых данных. С помощью использования одного или нескольких из вышеуказанных решений модулем (102) может осуществляться формирование векторных представлений текстов и предложений в (эмбеддинги). Эмбеддинги, полученные на основании универсальной модели, обладающей генерализованными знаниями о вариативности текстов, позволяют оценить их положение в многомерном пространстве свойств текстов вообще, и дополнить выборку текстами, по своим численным признакам похожих на исходные тексты обучающей выборки выборки пользователя. [0043] The vectorization module (102) is one or more machine learning models for converting textual information into a vector form - embedding. The cleaned sentences of the text obtained using the module (101) are subject to vectorization. Machine learning models based on word-by-word vectorization or obtaining the vector of the entire sentence context as a whole can be applied. [0044] In the vectorization module (102), it is preferable to use machine learning models, for example, artificial neural networks (ANNs), which are capable of making a generalized conclusion about the world, trained on a large amount of closed data (texts with tens of billions of words - usually news, blogs , literature, including technical, open encyclopedias), for processing and analyzing the properties of new texts. Models such as BERT, ELMo, ULMFit, XLNet, RoBerta and others are already successfully used for the Russian language in small data processing tasks. By using one or more of the above solutions, the module (102) can generate vector representations of texts and sentences in (embeddings). Embeddings obtained on the basis of a universal model with generalized knowledge about the variability of texts allow us to assess their position in the multidimensional space of text properties in general, and to supplement the sample with texts similar in their numerical characteristics to the original texts of the user's training sample.
[0045] В качестве примера можно рассмотреть применение модели BERT для русского языка (http://docs.deeppaylov.ai/en/master/features/pretrained vectors.html). Модель выступает в качестве источника получения эмбеддингов предложения. Модуль векторизации (102) на основании полученных от модуля (101) нормализованных текстовых данных входной обучающей выборки осуществляет разбиение каждого предложения на минимально значимые части - токены (слова, знаки препинания). [0045] As an example, we can consider the application of the BERT model for the Russian language (http://docs.deeppaylov.ai/en/master/features/pretrained vectors.html). The model acts as a source for receiving offer embeddings. The vectorization module (102), based on the normalized text data of the input training sample received from the module (101), splits each sentence into the least significant parts - tokens (words, punctuation marks).
[0046] Токенизация (разделение текста на токены) происходит с помощью открытой технологии, подходящей для модели BERT, например, BertTokenizer (см. https://pypi.org/proiect/pytorch-pretrained-bert/'). По итогам токенизации формируется список строк, соответствующих токенам предложения. Для каждого токена с помощью модуля векторизации (102) передается эмбеддинг, который берется из последнего - 1 loro слоя модели BERT. Эмбеддинг имеет размерность 768 на 1. Для каждого предложения формируется соответствующий эмбеддинг заданной размерности (в данном решении используется размерность вектора 1 на 768) с помощью нейросетевой модели. В частности, данный эмбеддинг может формироваться с помощью операции усреднения токенов. [0046] Tokenization (the division of text into tokens) occurs using an open technology suitable for the BERT model, for example, BertTokenizer (see. https://pypi.org/proiect/pytorch-pretrained-bert/ ' ). Based on the results of tokenization, a list of strings corresponding to the offer tokens is generated. For each token, using the vectorization module (102), an embedding is transmitted, which is taken from the last - 1 loro layer of the BERT model. The embedding has a dimension of 768 by 1. For each sentence, a corresponding embedding of a given dimension is formed (in this solution, the vector dimension is 1 by 768) using a neural network model. In particular, this embedding can be formed using the token averaging operation.
[0047] Модуль обогащения данных (103) представляет собой базу данных с текстами из открытых источников данных, например, веб-ресурсов с различными вариантами текстов, литературы и т.п. Модуль (103) содержит тексты суммарным объемом 10 млрд слов, при этом выполнен с возможностью постоянного наполнения, что обеспечивает большую вариативность контекстов материала на русском языке, с учетом различных стилей, жанров и типов материалов. [0047] The data enrichment module (103) is a database with texts from open data sources, for example, web resources with various versions of texts, literature, and the like. Module (103) contains texts with a total volume of 10 billion words, while it is designed with the possibility of constant filling, which provides a large variability of the contexts of material in Russian, taking into account various styles, genres and types of materials.
[0048] Информация, содержащая в модуле обогащения (103) служит исходным материалом, корпусом текстов для создания полноценного индекса натуральных текстов, материалами которого будет дополняться передаваемая выборка. Помимо самих текстов, в модуле (103) хранятся доступные метаданные о тексте, такие как: [0048] The information contained in the enrichment module (103) serves as a source material, a text corpus for creating a full-fledged index of natural texts, the materials of which will be supplemented by the transmitted sample. In addition to the texts themselves, the module (103) stores available metadata about the text, such as:
- Идентификатор (ID); - Identifier (ID);
- Информация об источнике, адрес его местонахождения в сети Интернет (url, ip- адрес и т.п.) - Information about the source, the address of its location on the Internet (url, ip-address, etc.)
- Дата добавления в хранилище; - Date added to storage;
- Жанр; - Genre;
- Дата написания; - Date of writing;
- ФИО автора; - full name of the author;
- Рубрика, тематика; - Heading, subject;
- Количество слов. - Word count.
[0049] Модуль текстового индекса (104) обеспечивает формирование иерархического индекса на базе предварительно векторизованных текстов из модуля (103). Векторизация текстовых данных в модуле (103) осуществляется с помощью модуля векторизации (102). Построение индекса производится при помощи библиотеки (https://pypi.org/proiect/nmslib/'). [0049] The text index module (104) generates a hierarchical index based on the previously vectorized texts from the module (103). Vectorization of text data in the module (103) is carried out using the vectorization module (102). The index is built using the library (https://pypi.org/proiect/nmslib/ ').
[0050] Данная библиотека имеет методы индексирования, максимально подходящие для построения индекса на эмбеддингах: можно построить иерархический индекс, подбирающие максимально похожие текст на основании косинусной меры. Данная мера близости является популярной метрикой, используемой для получения языковых объектов (слов, предложений, текстов), максимально схожих по своим свойствам, закодированным в эмбеддингах. [0050] This library has indexing methods that are most suitable for building an index on embeddings: you can build a hierarchical index, selecting the most similar text based on the cosine measure. This measure of proximity is a popular metric used to obtain language objects (words, sentences, texts) that are as similar as possible in their properties encoded in embeddings.
[0051] Косинусная мера близости определяется с помощью скалярного произведения и нормы между двумя векторами:
Figure imgf000011_0001
[0051] The cosine measure of proximity is determined using the dot product and the norm between two vectors:
Figure imgf000011_0001
[0052] Широкая применимость косинусной меры, в частности, в задачах информационного поиска, машинного обучения и обработки текста обусловлена ее эффективностью в качестве оценочной меры для разреженных векторов/ эмбеддингов, так как необходимо учитывать только ненулевые значения эмбеддингов (а таких нулевых значений в текстовых эмбеддингах бывает достаточно, так как это означает, что какой-то признак в тексте отсутствует). [0052] The wide applicability of the cosine measure, in particular, in the problems of information retrieval, machine learning and text processing is due to its effectiveness as an evaluative measure for sparse vectors / embeddings, since only non-zero values of embeddings must be taken into account (and such zero values in text embeddings it is enough, as it means that some feature is absent in the text).
[0053] Косинусная мера является лишь частным примером способа индексирования, он может быть любым. В данном случае уместно использовать иерархический индекс по причине того, что он достаточно компактен и при этом обеспечивает быстрое получение ближайших объектов по эмбеддингам. Потенциально возможно использовать и любые другие методы построения индекса на косинусной мере (sparse cosine similarity indexing), но из-за немалой размерности эмбеддингов (обычно они включают последовательности от 300 до 2000 чисел, в заявленном решении - 768), иерархические методы осуществляют наиболее быстрый поиск самого близкого объекта в индексе к объекту запроса. [0053] The cosine measure is just a particular example of the indexing method, it can be anything. In this case, it is appropriate to use a hierarchical index due to the fact that it is quite compact and at the same time provides quick retrieval of the nearest objects by embeddings. It is potentially possible to use any other methods for constructing an index on a cosine measure (sparse cosine similarity indexing), but due to the considerable dimension of embeddings (usually they include sequences from 300 to 2000 numbers, in the stated solution - 768), hierarchical methods perform the fastest search the closest object in the index to the query object.
[0054] В рамках эксперимента был собран тестовый индекс, построенный на 100 000 случайных предложений из русской википедии и веб-корпуса Common Crawl (блоги, новости, реклама). Были собраны заголовки новостей и популярных записей в блогах и к ним подобраны максимально похожие предложения из тестового индекса: на приведенных ниже примерах можно наблюдать, как в подобранных предложениях сохраняется тематика, эмоциональная окраска предложений, стиль и лексические признаки. [0054] As part of the experiment, a test index was collected, built on 100,000 random sentences from Russian Wikipedia and the Common Crawl web corpus (blogs, news, advertising). The headlines of news and popular blog posts were collected and the most similar sentences from the test index were selected for them: in the examples below, you can observe how the theme, emotional coloring of sentences, style and lexical signs are preserved in the selected sentences.
[0055] Для полного индекса создается индекс на данных из открытого веб-корпуса Omnia Russica объемом 33 млрд слов на русском языке (собран автором данной заявки) https://omnia-russica.github.io/. [0055] For the full index, an index is created on data from the open web corpus Omnia Russica of 33 billion words in Russian (compiled by the author of this application) https://omnia-russica.github.io/.
[0056] Модуль аугментации выборки (105) представляет собой набор моделей для определения полноты выборки, полученной модулем (101). Для последующей аугментации исходной обучающей выборки модуль (105) может функционировать в двух режимах работы: 1) Создание скорректированной и/или дополненной выборки; [0056] The sample augmentation module (105) is a set of models for determining the completeness of the sample obtained by the module (101). For the subsequent augmentation of the initial training sample, module (105) can operate in two modes of operation: 1) Creation of an adjusted and / or augmented sample;
2) Дополнение выборки до требуемого количества слов. 2) Completion of the sample to the required number of words.
[0057] Увеличение выборки до требуемого объема осуществляется на основании пользовательского ввода, который указывает желаемый объем выборки в словах, что позволяет достичь максимально достижимое на данном индексе значение, например, если пользователь хочет 1 млрд слов, а есть только 20 миллионов, выдается 20 миллионов. [0057] На Фиг. 2 представлена блок-схема выполнения способа аугментации обучающей выборки (200). На первом этапе (201) пользователь загружает в систему исходную текстовую выборку, которая обрабатывается модулем (101) и в последующем преобразовывается в векторное представление (202). [0057] The increase in the sample to the required size is carried out based on user input, which indicates the desired sample size in words, which allows you to reach the maximum value attainable at this index, for example, if the user wants 1 billion words, but there are only 20 million, 20 million are issued ... [0057] FIG. 2 shows a block diagram of the implementation of the method for augmentation of the training sample (200). At the first stage (201), the user loads the original text sample into the system, which is processed by the module (101) and subsequently converted into a vector representation (202).
[0058] В случае корректировки выборки происходит следующая операция: [0058] In the case of adjusting the sample, the following operation occurs:
По полученным векторам входной выборки (тексты, полученные от пользователя для аугментации) вычисляются экстремальные значения по каждой переменной эмбеддингов - минимум и максимум, по каждой из 768 переменных в эмбеддинге. Полученные 768 минимумом и максимумов образуют гиперпространство в пространстве признаков модели аугментации, применяемой модулем (105). Using the obtained vectors of the input sample (texts received from the user for augmentation), extreme values are calculated for each embedding variable - minimum and maximum, for each of the 768 variables in the embedding. The obtained 768 minimum and maximums form a hyperspace in the feature space of the augmentation model used by the module (105).
[0059] Из сформированного иерархического индекса (203) извлекаются все тексты, эмбеддинги которых попадают в упомянутое гиперпростанство, т.е. эмбеддинги, удовлетворяющие условиям минимума и максимума по каждой переменной в координатном пространстве. Список подобных примеров предложений выводится в текстовом виде. Аугментация выборки (204) в части улучшения (корректировка) выборки достигается за счет обогащения ее новыми примерами, которые не выделяются экстремальными значениями, при этом позволяют получить более точное понимание распределения интересующих пользователя явлений, например, на основании совпадений тематики текстов, частоты упоминания терминов в векторном пространстве и т.п. [0059] From the generated hierarchical index (203), all texts are extracted, the embeddings of which fall into the said hyperspace, i.e. embeddings that satisfy the minimum and maximum conditions for each variable in the coordinate space. A list of such example sentences is displayed in text form. The augmentation of the sample (204) in terms of improving (adjusting) the sample is achieved by enriching it with new examples that are not distinguished by extreme values, while allowing a more accurate understanding of the distribution of the phenomena of interest to the user vector space, etc.
[0060] Аугментация выборки (204) в части ее дополнения до требуемого количества слов осуществляется следующим образом. По полученным векторам токенов входной выборки (тексты, полученные от пользователя для аугментации), вычисляются экстремальные значения по каждой переменной эмбеддингов, аналогично способом упомянутым выше для улучшения выборки, которые формируют векторное гиперпространство текстовых данных. [0060] The augmentation of the sample (204) in terms of its completion to the required number of words is carried out as follows. Using the received vectors of input selection tokens (texts received from the user for augmentation), extreme values are calculated for each embedding variable, similarly to the method mentioned above to improve the selection, which form a vector hyperspace of text data.
[0061] Из сформированного текстового индекса (203) извлекаются все тексты, чьи эмбеддинги попадают в данное гиперпростанство, что позволяет оценить объем полученной текстовой выборки. [0062] Если объем текстовой выборки меньше заявленного пользователем количества слов, то происходит следующая операция: по индексу подбираются по N (начиная с N=l) максимально близких по косинусной мере предложений к каждому предложению из полученной выборки, даже если они не входят в определенное гиперпространство. Итеративно увеличивая число N на единицу, осуществляется циклический перебор всех предложений для поиска уникальных похожих текстов, до тех пока количество слов не достигнет установленного пользователем числа. Уникальность примеров контролируется проверкой по id предложения в базе модуля (103). [0061] From the generated text index (203), all texts are extracted, whose embeddings fall into this hyperspace, which makes it possible to estimate the volume of the received text sample. [0062] If the volume of the text sample is less than the number of words declared by the user, then the following operation occurs: the index selects according to N (starting with N = l) sentences that are maximally close in cosine measure to each sentence from the obtained sample, even if they are not included in a certain hyperspace. By iteratively increasing the number N by one, all sentences are looped through to find unique similar texts until the number of words reaches the number set by the user. The uniqueness of the examples is controlled by checking the id of the proposal in the module base (103).
[0063] Если выборка меньше заявленного пользователем количества слов, то происходит следующая операция: все примеры, полученные из гиперпространства признаков, сортируются по схожести на основании вычисления косинусной меры близости к примерам в пользовательской выборке. Происходит циклический перебор каждого примера из пользовательской выборки, и для него подбирается N наиболее близких примеров. Параметр N итеративно увеличивается на 1 , пока количество слов в полученной выборке не составит заявленного числа. [0063] If the sample is less than the number of words declared by the user, then the following operation occurs: all examples obtained from the feature hyperspace are sorted by similarity based on the calculation of the cosine measure of proximity to the examples in the user sample. Each example from the user selection is looped through, and the N closest examples are selected for it. The parameter N is iteratively increased by 1 until the number of words in the resulting sample is the declared number.
[0064] Выполнение способа аугментации выборки (200) позволяет подобрать наиболее релевантные текстовые данные, существующие в постоянно формируемом пространстве иерархического текстового индекса, которые применяются для обогащения входной обучающей выборки пользователя. [0064] Execution of the sample augmentation method (200) allows selecting the most relevant text data existing in the constantly generated space of the hierarchical text index, which are used to enrich the user's input training sample.
[0065] Заявленное решение возможно встраивать в другие системы для улучшения их работы, например, систему автоматической разметки сущностей в тексте (задача named entity recognition - под сущностями имеются в виду персоны, локации, названия организаций, иногда дополнительные сущности; задача является сложной, так как для ее решения требуется подбор большого количества размеченных примеров). При работе в составе системы для разметки сущностей пользователь загружает неразмеченные данные и примеры сущностей, затем данные искусственно аугментируются по вышеописанному способу (200), разметка сущностей происходит с учетом большего количества контекстов, которые формируются при аугментации выборки. [0065] The claimed solution can be embedded in other systems to improve their work, for example, a system for automatic marking of entities in the text (named entity recognition task - entities mean persons, locations, names of organizations, sometimes additional entities; the task is complex, so how to solve it requires the selection of a large number of marked examples). When working as part of a system for marking up entities, the user loads unlabeled data and examples of entities, then the data is artificially augmented according to the method described above (200), the marking of entities takes into account a larger number of contexts that are formed during sample augmentation.
[0066] Сама по себе идея поиска дополнительных данных часто осуществляется вручную на ограниченном наборе открытых источников. Однако, такой подход абсолютно не учитывает вариативность в исходных текстовых данных, так как текст все же следует рассматривать математически как последовательность редких событий с большим количеством факторов, влияющих на распределение - стиль, жанр, источник, цель и дата написания, отношение автора с адресатом и т.д. Добавление неоднородных текстовых данных к исходной выборке способно полностью нивелировать ее особенности и ухудшить результаты обучения. С помощью реализации заявленного подхода процесс поиска подходящей дополняющей однородной выборки автоматизируется, при этом происходит учет вариативности особенностей текста. [0066] By itself, the idea of searching for additional data is often done manually on a limited set of open sources. However, this approach absolutely does not take into account the variability in the original textual data, since the text should still be considered mathematically as a sequence of rare events with a large number of factors affecting the distribution - style, genre, source, purpose and date of writing, the relationship of the author with the addressee, and etc. Adding heterogeneous text data to the original sample can completely neutralize its features and worsen learning outcomes. With the help of the implementation of the claimed approach, the process of searching for a suitable complementary homogeneous sample is automated, while taking into account the variability of the features of the text.
[0067] На Фиг. 3 представлен общий вид вычислительного устройства (300). На базе устройства (300) может быть реализовано устройство пользователя для формирования и загрузки выборки, вычислительное устройство (100) для выполнения способа аугментации (200) и иные непредставленные устройства, которые могут участвовать в общей информационной архитектуре заявленного решения. [0067] FIG. 3 shows a general view of the computing device (300). On the basis of the device (300), a user device for generating and loading a sample, a computing device (100) for performing the augmentation method (200) and other unrepresented devices can be implemented that can participate in the general information architecture of the claimed solution.
[0068] В общем случае, вычислительное устройство (300) содержит объединенные общей шиной информационного обмена один или несколько процессоров (301), средства памяти, такие как ОЗУ (302) и ПЗУ (303), интерфейсы ввода/вывода (304), устройства ввода/вывода (305), и устройство для сетевого взаимодействия (306). [0068] In the General case, the computing device (300) contains one or more processors (301) united by a common bus of information exchange, memory means such as RAM (302) and ROM (303), input / output interfaces (304), devices input / output (305), and a device for networking (306).
[0069] Процессор (301) (или несколько процессоров, многоядерный процессор) могут выбираться из ассортимента устройств, широко применяемых в текущее время, например, компаний Intel™, AMD™, Apple™, Samsung Exynos™, MediaTEK™, Qualcomm Snapdragon™ и т.п. Процессор (301) может включать в себя также графический процессор или работать в совокупности с графическим ускорителем, например, Nvidia, AMD Radeon и др., которые могут применяться для осуществления вычислительных операций при выполнении алгоритмов машинного обучения. [0069] The processor (301) (or multiple processors, multi-core processor) can be selected from a range of devices currently widely used, for example, Intel ™, AMD ™, Apple ™, Samsung Exynos ™, MediaTEK ™, Qualcomm Snapdragon ™ and etc. The processor (301) can also include a graphics processor or work in conjunction with a graphics accelerator, for example, Nvidia, AMD Radeon, etc., which can be used to perform computational operations when executing machine learning algorithms.
[0070] ОЗУ (302) представляет собой оперативную память и предназначено для хранения исполняемых процессором (301) машиночитаемых инструкций для выполнение необходимых операций по логической обработке данных. ОЗУ (302), как правило, содержит исполняемые инструкции операционной системы и соответствующих программных компонент (приложения, программные модули и т.п.). [0070] RAM (302) is a random access memory and is intended for storing machine-readable instructions executed by the processor (301) for performing the necessary operations for logical data processing. RAM (302), as a rule, contains executable instructions of the operating system and corresponding software components (applications, software modules, etc.).
[0071] ПЗУ (303) представляет собой одно или более устройств постоянного хранения данных, например, жесткий диск (HDD), твердотельный накопитель данных (SSD), флэш- память (EEPROM, NAND и т.п.), оптические носители информации (CD-R/RW, DVD- R/RW, BlueRay Disc, MD) и др. [0071] ROM (303) is one or more persistent storage devices, such as a hard disk drive (HDD), solid state data storage device (SSD), flash memory (EEPROM, NAND, etc.), optical storage media ( CD-R / RW, DVD-R / RW, BlueRay Disc, MD), etc.
[0072] Для организации работы компонентов устройства (300) и организации работы внешних подключаемых устройств применяются различные виды интерфейсов В/В (304). Выбор соответствующих интерфейсов зависит от конкретного исполнения вычислительного устройства, которые могут представлять собой, не ограничиваясь: PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232 и т.п. [0072] Various types of I / O interfaces (304) are used to organize the operation of the components of the device (300) and to organize the operation of external connected devices. The choice of the appropriate interfaces depends on the specific design of the computing device, which can be, but are not limited to: PCI, AGP, PS / 2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS / Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232, etc.
[0073] Для обеспечения взаимодействия пользователя с вычислительным устройством (300) применяются различные средства (305) В/В информации, например, клавиатура, дисплей (монитор), сенсорный дисплей, тач-пад, джойстик, манипулятор мышь, световое перо, стилус, сенсорная панель, трекбол, динамики, микрофон, средства дополненной реальности, оптические сенсоры, планшет, световые индикаторы, проектор, камера, средства биометрической идентификации (сканер сетчатки глаза, сканер отпечатков пальцев, модуль распознавания голоса) и т.п. [0074] Средство сетевого взаимодействия (306) обеспечивает передачу данных устройством (300) посредством внутренней или внешней вычислительной сети, например, Интранет, Интернет, ЛВС и т.п. В качестве одного или более средств (306) может использоваться, но не ограничиваться: Ethernet карта, GSM модем, GPRS модем, LTE модем, 5G модем, модуль спутниковой связи, NFC модуль, Bluetooth и/или BLE модуль, Wi-Fi модуль и др. [0073] To ensure user interaction with the computing device (300), various I / O means (305) are used, for example, a keyboard, display (monitor), touch display, touch pad, joystick, mouse manipulator, light pen, stylus, touch panel, trackball, speakers, microphone, augmented reality, optical sensors, tablet, light indicators, projector, camera, biometric identification (retina scanner, fingerprint scanner, voice recognition module), etc. [0074] The networking means (306) allows the device (300) to transmit data via an internal or external computer network, for example, Intranet, Internet, LAN, and the like. One or more means (306) may be used, but not limited to: Ethernet card, GSM modem, GPRS modem, LTE modem, 5G modem, satellite communication module, NFC module, Bluetooth and / or BLE module, Wi-Fi module and dr.
[0075] Дополнительно могут применяться также средства спутниковой навигации в составе устройства (300), например, GPS, ГЛОНАСС, BeiDou, Galileo. [0075] In addition, satellite navigation aids can also be used as part of the device (300), for example, GPS, GLONASS, BeiDou, Galileo.
[0076] Представленные материалы заявки раскрывают предпочтительные примеры реализации технического решения и не должны трактоваться как ограничивающие иные, частные примеры его воплощения, не выходящие за пределы испрашиваемой правовой охраны, которые являются очевидными для специалистов соответствующей области техники. [0076] The presented application materials disclose preferred examples of the implementation of the technical solution and should not be construed as limiting other, particular examples of its implementation, not going beyond the scope of the claimed legal protection, which are obvious to specialists in the relevant field of technology.

Claims

ФОРМУЛА FORMULA
1. Система аугментации обучающей выборки для алгоритмов машинного обучения, содержащая: по меньшей мере один процессор; по меньшей мере одно средство памяти; модуль обработки входных данных, выполненный с возможностью получения текстовых данных, формирующих исходную обучающую выборку; нормализацию данных, при которой выполняется разделение текста на предложения и очистка текста от символов; модуль векторизации данных, выполненный с возможностью преобразования в векторную форму нормализованных предложений, при этом в ходе упомянутого преобразования осуществляется разбиение каждого полученного предложения на минимально значимые части, представляющие собой слова и знаки препинания; токенизация упомянутых минимально значимых частей; формирование векторных представлений для каждого токена; и формирование усредненного векторного представления нормализованного предложения; модуль обогащения текстовых данных, содержащий набор текстовых данных собираемых из открытых источников и метаданные, для их векторизации и построения поискового индекса; модуль текстового индекса, выполненный с возможностью формирования текстового индекса по векторным представлениям текстовых данных; модуль аугментации обучающей выборки, выполненный с возможностью дополнения и/или корректировки исходной текстовой выборки на основании подбора релевантных векторных представлений токенов в модуле обогащения текстовых данных с помощью определения меры близости токенов в векторном пространстве. 1. A system for augmentation of a training sample for machine learning algorithms, comprising: at least one processor; at least one memory means; an input data processing module, configured to obtain text data that form an initial training sample; data normalization, in which the text is divided into sentences and the text is cleared of characters; a data vectorization module capable of converting normalized sentences into vector form, while during said conversion, each received sentence is divided into minimum significant parts, which are words and punctuation marks; tokenization of the mentioned minimum significant parts; formation of vector representations for each token; and generating an averaged vector representation of the normalized sentence; a text data enrichment module containing a set of text data collected from open sources and metadata for their vectorization and building a search index; a text index module, configured to generate a text index based on vector representations of text data; a training sample augmentation module, configured to supplement and / or adjust the original text sample based on the selection of relevant vector representations of tokens in the text data enrichment module by determining the measure of proximity of tokens in the vector space.
2. Система по п.1, характеризующаяся тем, что модуль векторизации данных формирует усредненное векторное представление текста. 2. The system according to claim 1, characterized in that the data vectorization module generates an averaged vector representation of the text.
3. Система по п.2, характеризующаяся тем, что размерность усредненного векторного представления равна 768: 1. 3. The system according to claim 2, characterized in that the dimension of the averaged vector representation is 768: 1.
4. Система по п.1, характеризующаяся тем, что метаданные включают в себя по меньшей мере одно из: ссылка источник в глобальной сети Интернет, дата источника, жанр, дата создания, данные автора, рубрика, тематика, количество слов в источнике. 4. The system according to claim 1, characterized in that the metadata includes at least one of: link source in the global Internet, date of source, genre, date of creation, author data, heading, subject, number of words in the source.
5. Система по п.1, характеризующаяся тем, что мера близости токенов и текстов в пространстве представляет собой косинусную меру близости. 5. The system according to claim 1, characterized in that the measure of proximity of tokens and texts in space is a cosine measure of proximity.
6. Система по п.1 , характеризующаяся тем, что векторном пространстве каждый токен имеет уникальные координаты. 6. The system according to claim 1, characterized in that each token has unique coordinates in the vector space.
7. Система по п.6, характеризующаяся тем, что на основании координат определяются минимальные и максимальные граничные значения пространства текстов исходной обучающей выборки. 7. The system according to claim 6, characterized in that, based on the coordinates, the minimum and maximum boundary values of the text space of the initial training sample are determined.
8. Система по п.7, характеризующаяся тем, что аугментация обучающей выборки осуществляется с помощью добавления новых текстов, имеющих координаты, не выходящие за пределы граничных значений. 8. The system according to claim 7, characterized in that the training sample is augmented by adding new texts with coordinates that do not go beyond the boundary values.
9. Система по п.8, характеризующаяся тем, что дополнение исходной обучающей выборки осуществляется до заданного пользователем количества слов. 9. The system according to claim 8, characterized in that the initial training sample is supplemented up to a user-specified number of words.
10. Система по п.9, характеризующаяся тем, что осуществляется итеративный поиск ближайших текстов в векторном пространстве для каждого текста из предложений исходной выборки. 10. The system according to claim 9, characterized in that an iterative search of the nearest texts in the vector space is carried out for each text from the sentences of the initial selection.
11. Система по п.10, характеризующаяся тем, что уникальность подбираемых текстов определяется на основании метаданных, хранимых в модуле обогащения текстовых данных. 11. The system according to claim 10, characterized in that the uniqueness of the selected texts is determined based on the metadata stored in the text data enrichment module.
12. Компьютерно-реализуемый способ аугментации обучающей выборки для алгоритмов машинного обучения, выполняемый с помощью по меньшей мере одного процессора и содержащий этапы, на которых: получают текстовые данные исходной обучающей выборки; выполняют нормализацию данных, при которой выполняется разделение текста на предложения и очистка текста от символов; выполняют векторизацию нормализованных предложений, при этом в ходе упомянутого преобразования осуществляется: разбиение каждого полученного предложения на минимально значимые части, представляющие собой слова и знаки препинания (токенизация); формирование векторных представлений для каждого нормализованного текста на основании входящих в него токенов (значимых частей); формируют текстовый индекс по векторным представлениям текстовых данных, при этом текстовый индекс формируется из векторного пространства, формируемого из текстов, расположенных в открытых источниках, и метаданных; осуществляют аугментацию исходной обучающей выборки с помощью подбора релевантных векторных представлений текстов на основании определения меры близости в векторном пространстве на основании поискового индекса. 12. A computer-implemented method for augmentation of a training sample for machine learning algorithms, performed using at least one processor and containing the stages at which: receive text data of the original training sample; perform data normalization, in which the text is divided into sentences and the text is cleared of characters; vectorization of normalized sentences is performed, while during the mentioned transformation the following is carried out: splitting each received sentence into minimum significant parts, which are words and punctuation marks (tokenization); formation of vector representations for each normalized text based on the tokens (significant parts) included in it; form a text index based on vector representations of text data, while the text index is formed from a vector space formed from texts located in open sources and metadata; augmentation of the initial training sample is carried out using the selection of relevant vector representations of the texts based on the determination of the measure of proximity in the vector space based on the search index.
13. Способ по п.12, характеризующийся тем, что при векторизации текстовых данных формируется усредненное векторное представление текста. 13. The method according to claim 12, characterized in that when the text data is vectorized, an averaged vector representation of the text is formed.
14. Способ по п.13, характеризующийся тем, что размерность усредненного векторного представления равна 768:1. 14. The method according to claim 13, characterized in that the dimension of the averaged vector representation is 768: 1.
15. Способ по п.12, характеризующийся тем, что метаданные включают в себя по меньшей мере одно из: ссылка источник в глобальной сети Интернет, дата источника, жанр, дата создания, данные автора, рубрика, тематика, количество слов в источнике. 15. The method according to claim 12, characterized in that the metadata includes at least one of: link source in the global Internet, date of source, genre, date of creation, author data, heading, subject, number of words in the source.
16. Способ по п.12, характеризующийся тем, что мера близости токенов и текстов в пространстве представляет собой косинусную меру близости. 16. The method according to claim 12, characterized in that the measure of proximity of tokens and texts in space is a cosine measure of proximity.
17. Способ по п.12, характеризующийся тем, что в векторном пространстве каждый токен имеет уникальные координаты. 17. The method according to claim 12, characterized in that each token has unique coordinates in the vector space.
18. Способ по п.17, характеризующийся тем, что на основании координат определяются минимальные и максимальные граничные значения пространства текстов исходной обучающей выборки. 18. The method according to claim 17, characterized in that, based on the coordinates, the minimum and maximum boundary values of the text space of the initial training sample are determined.
19. Способ по п.18, характеризующийся тем, что аугментация обучающей выборки осуществляется с помощью добавления новых текстов, имеющих координаты, не выходящие за пределы граничных значений. 19. The method according to claim 18, characterized in that the training sample is augmented by adding new texts with coordinates that do not go beyond the boundary values.
20. Способ по п.19, характеризующийся тем, что дополнение исходной обучающей выборки осуществляется до заданного пользователем количества слов. 20. The method according to claim 19, characterized in that the initial training sample is supplemented up to a user-specified number of words.
21. Способ по п.20, характеризующийся тем, что осуществляется итеративный поиск ближайших текстов в векторном пространстве для каждого текста из предложений исходной выборки. 21. The method according to claim 20, characterized in that an iterative search of the nearest texts in the vector space is carried out for each text from the sentences of the initial selection.
22. Способ по п.21, характеризующийся тем, что уникальность подбираемых текстов определяется на основании метаданных. 22. The method according to claim 21, characterized in that the uniqueness of the selected texts is determined based on metadata.
PCT/RU2020/000696 2020-04-28 2020-12-16 System and method for augmenting a training set for machine learning algorithms WO2021221535A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
RU2020132305A RU2758683C2 (en) 2020-04-28 2020-04-28 System and method for augmentation of the training sample for machine learning algorithms
RU2020132305 2020-04-28

Publications (1)

Publication Number Publication Date
WO2021221535A1 true WO2021221535A1 (en) 2021-11-04

Family

ID=78373749

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/RU2020/000696 WO2021221535A1 (en) 2020-04-28 2020-12-16 System and method for augmenting a training set for machine learning algorithms

Country Status (3)

Country Link
EA (1) EA202092855A1 (en)
RU (1) RU2758683C2 (en)
WO (1) WO2021221535A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4239516A1 (en) * 2022-03-01 2023-09-06 Tata Consultancy Services Limited Systems and methods for multi-utterance generation of data with immutability regulation and punctuation-memory

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030083863A1 (en) * 2000-09-08 2003-05-01 Ringger Eric K. Augmented-word language model
US20090099837A1 (en) * 2000-12-08 2009-04-16 Hiyan Alshawi Language-understanding training database action pair augmentation using bidirectional translation
CN108920473A (en) * 2018-07-04 2018-11-30 中译语通科技股份有限公司 A kind of data enhancing machine translation method based on similar word and synonym replacement

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2715024C1 (en) * 2019-02-12 2020-02-21 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Method of trained recurrent neural network debugging

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030083863A1 (en) * 2000-09-08 2003-05-01 Ringger Eric K. Augmented-word language model
US20090099837A1 (en) * 2000-12-08 2009-04-16 Hiyan Alshawi Language-understanding training database action pair augmentation using bidirectional translation
CN108920473A (en) * 2018-07-04 2018-11-30 中译语通科技股份有限公司 A kind of data enhancing machine translation method based on similar word and synonym replacement

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4239516A1 (en) * 2022-03-01 2023-09-06 Tata Consultancy Services Limited Systems and methods for multi-utterance generation of data with immutability regulation and punctuation-memory

Also Published As

Publication number Publication date
RU2020132305A (en) 2021-10-28
RU2758683C2 (en) 2021-11-01
RU2020132305A3 (en) 2021-10-28
EA202092855A1 (en) 2021-10-29

Similar Documents

Publication Publication Date Title
CN107423282B (en) Method for concurrently extracting semantic consistency subject and word vector in text based on mixed features
US9251250B2 (en) Method and apparatus for processing text with variations in vocabulary usage
US10223349B2 (en) Inducing and applying a subject-targeted context free grammar
Banik et al. Gru based named entity recognition system for bangla online newspapers
Niam et al. Hate speech detection using latent semantic analysis (lsa) method based on image
CN110569503A (en) Semantic item representation and disambiguation method based on word statistics and WordNet
CN115795030A (en) Text classification method and device, computer equipment and storage medium
RU2758683C2 (en) System and method for augmentation of the training sample for machine learning algorithms
CN112632272A (en) Microblog emotion classification method and system based on syntactic analysis
CN110198291B (en) Webpage backdoor detection method, device, terminal and storage medium
Shivahare et al. Survey Paper: Study of Sentiment Analysis and Machine Translation using Natural Language Processing and its Applications
JP2017538226A (en) Scalable web data extraction
Khomytska et al. Automated Identification of Authorial Styles.
CN114676699A (en) Entity emotion analysis method and device, computer equipment and storage medium
CN114491076A (en) Data enhancement method, device, equipment and medium based on domain knowledge graph
US20210073258A1 (en) Information processing apparatus and non-transitory computer readable medium
EA040619B1 (en) SYSTEM AND METHOD FOR TRAINING SAMPLE AUGMENTATION FOR MACHINE LEARNING ALGORITHMS
CN112329478A (en) Method, device and equipment for constructing causal relationship determination model
RU2775351C1 (en) Method and system for obtaining a vector representation of an electronic document
Jamwal Development of POS tag set for the Dogri language using SMT
Wolfe ChronoNLP: Exploration and Analysis of Chronological Textual Corpora
RU2775358C1 (en) Method and system for obtaining vector representation of electronic text document for classification by categories of confidential information
RU2760637C1 (en) Method and system for retrieving named entities
Jayasinghe et al. Deep learning textual entailment system for sinhala language
JP7167996B2 (en) Case search method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20932935

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20932935

Country of ref document: EP

Kind code of ref document: A1