RU2628897C1 - Method of classifiying texts received as result of speech recognition - Google Patents
Method of classifiying texts received as result of speech recognition Download PDFInfo
- Publication number
- RU2628897C1 RU2628897C1 RU2016130336A RU2016130336A RU2628897C1 RU 2628897 C1 RU2628897 C1 RU 2628897C1 RU 2016130336 A RU2016130336 A RU 2016130336A RU 2016130336 A RU2016130336 A RU 2016130336A RU 2628897 C1 RU2628897 C1 RU 2628897C1
- Authority
- RU
- Russia
- Prior art keywords
- semantic
- text
- words
- phrases
- word
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
Abstract
Description
Изобретение относится к области анализа и обработки текстов и может быть использовано для классификации потока текстовых файлов, полученных в результате распознавания слитной речи в каналах телефонной связи, по заранее неизвестным классам. Изобретения также предоставляет возможность создания программных систем для автоматической классификации телефонных переговоров в колл-центрах.The invention relates to the field of analysis and word processing and can be used to classify the flow of text files obtained as a result of recognition of continuous speech in telephone communication channels according to previously unknown classes. The invention also provides the ability to create software systems for the automatic classification of telephone calls in call centers.
Известен способ обработки текста, основанный на методе статистического анализа текстов, основанный на предварительной подготовке данных, в которой предложения или группа предложений с помощью опытных лингвистов классифицируют тематическими маркерами из фиксированного множества тематических маркеров. Предполагают, что текст (последовательность предложений) порождается последовательностью тематических переменных, которые подчинены скрытой модели Маркова. Скрытая модель Маркова определяется условными вероятностями следования друг за другом тематических переменных и условными вероятностями возникновения тематического маркера при известных предложениях и тематической переменной. С помощью ЕМ-алгоритма эти условные вероятности можно найти на основе предварительно подготовленных данных (Christina Sauper, Aria Haghighi, Regina Barzilay, Incorporating Content Structure into Text Analysis Applications // Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, pages 377-387, MIT, Massachusetts, USA, 9-11 October 2010. 2010 Association for Computational Linguistics).A known method of text processing based on the method of statistical analysis of texts, based on preliminary data preparation, in which sentences or a group of sentences with the help of experienced linguists is classified by thematic markers from a fixed set of thematic markers. It is assumed that the text (sequence of sentences) is generated by a sequence of thematic variables that are subordinate to the hidden Markov model. The hidden Markov model is determined by the conditional probabilities of thematic variables following each other and the conditional probabilities of the emergence of a thematic marker with known sentences and thematic variables. Using the EM algorithm, these conditional probabilities can be found based on pre-prepared data (Christina Sauper, Aria Haghighi, Regina Barzilay, Incorporating Content Structure into Text Analysis Applications // Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, pages 377- 387, MIT, Massachusetts, USA, October 9-11, 2010. 2010 Association for Computational Linguistics).
Данный способ обладает существенным недостатком, который связан с тем, что классификация текстов возможна только в рамках известного множества тем документов, В случае появления документа, не принадлежащего ни одному из существующих классов, такой документ будет классифицирован случайным образом.This method has a significant drawback, which is due to the fact that the classification of texts is possible only within the framework of a well-known set of document topics. If a document appears that does not belong to any of the existing classes, such a document will be classified at random.
Известен также способ обработки текста, основанный на методе k-ближайших соседей и дополненный матрицей совместной встречаемости терминов в документах, определяющих класс (Нгуен Ба Нгок, А.Ф. Тузовский. Классификация текстов на основе оценки семантической близости терминов // Известия Томского политехнического университета, 2012, т. 320, №5). Способ обладает высокой точностью, но и существенным недостатком, а именно невозможностью его применения для работы с искаженным текстом в виду искажения терминов и/или возможной заменой.There is also a known text processing method based on the k-nearest neighbors method and supplemented by the term co-occurrence matrix in the documents defining the class (Nguyen Ba Ngok, A.F. Tuzovsky. Text classification based on the semantic proximity of terms // Bulletin of the Tomsk Polytechnic University, 2012, t. 320, No. 5). The method has high accuracy, but also a significant drawback, namely the impossibility of its use for working with distorted text in view of the distortion of terms and / or possible replacement.
Наиболее близким к предлагаемому способу, является способ, принятый в качестве наиболее близкого аналога, используемый при построении семантической модели документа, по которому из информационных источников извлекают онтологию, в качестве информационных источников используют электронные ресурсы, анализируют описания и определяют значения терминов с помощью онтологии, извлеченных из гипертекстовых энциклопедий, вычисляют частоту совместного использования каждого текстового представления концепции и информативность для каждого текстового представления, также определяют, какому естественному языку принадлежит текстовое представление, и сохраняют полученную информацию, получают текст анализируемого документа, осуществляют поиск терминов текста и их возможных значений путем сопоставления частей текста и текстовых представлений концепций из контролируемого словаря для каждого термина из его возможных значений, используя алгоритм разрешения лексической многозначности терминов, выбирают одно, которое считают значением термина, а затем концепции, соответствующие значениям терминов, ранжируют по важности к тексту, и наиболее важные концепции считают семантической моделью документа (патент РФ на изобретение №2487403).Closest to the proposed method is the method adopted as the closest analogue used in constructing the semantic model of a document according to which an ontology is extracted from information sources, electronic resources are used as information sources, analysis of descriptions and determination of the meaning of terms using ontology extracted from hypertext encyclopedias, calculate the frequency of sharing of each textual representation of the concept and information content for each of the cross presentation, it is also determined which natural language the text representation belongs to, and the information obtained is saved, the text of the analyzed document is obtained, the text terms and their possible meanings are searched by comparing text parts and conceptual text representations from the controlled vocabulary for each term from its possible meanings, using the algorithm for resolving the lexical ambiguity of terms, choose one that is considered the meaning of the term, and then the concepts corresponding to e meaning of the term, ranked according to the importance of the text, and the most important concept is considered a semantic document model (RF patent №2487403).
Недостатком наиболее близкого аналога является низкая точность, которая связана с использованием только ключевых терминов для построения семантической модели документа. Таким образом, технический результат, достигаемый при создании заявленного способа, состоит в повышении точности классификации текстовых файлов, полученных при распознавании слитной речи в каналах телефонной связи, а также в возможности полной автоматизации такой классификации текстов независимо от тематики.The disadvantage of the closest analogue is the low accuracy, which is associated with the use of only key terms to build a semantic model of the document. Thus, the technical result achieved when creating the claimed method consists in increasing the accuracy of the classification of text files obtained when recognizing continuous speech in telephone communication channels, as well as in the possibility of full automation of such classification of texts regardless of subject.
Для достижения поставленного результата предлагается способ классификации текста, полученного в результате распознавания устной речи, включающий первоначальное создание (использование) хранилища начальных форм (семантических характеристик) слов (семантический словарь) и последующее проведение, например, посредством вычислительного устройства (компьютера) по меньшей мере один раз следующей последовательности действий:To achieve the result, a method for classifying text obtained as a result of recognition of oral speech is proposed, including the initial creation (use) of a storage of the initial forms (semantic characteristics) of words (semantic dictionary) and subsequent conduct, for example, by means of a computing device (computer) at least one times of the following sequence of actions:
- распознают устную речь с получением текста;- Recognize spoken language with text;
- в полученном в результате распознавания устной речи тексте выделяют каждое слово, находят каждому выделенному слову множество семантических характеристик в семантическом словаре, на основе выявленного множества семантических характеристик определяют семантическую согласованность по меньшей мере одной последовательности слов с получением фразы, выделяют из текста множество фраз со сравнением их семантических характеристик и выделением по результатам сравнения доминирующей семантической характеристики, преобразуют множество фраз во множество ключевых фраз, содержащих доминирующую семантическую характеристику, и формируют из первых полученных ключевых фраз и их семантических характеристик класс;- in the text obtained as a result of the recognition of oral speech, each word is highlighted, each selected word is found to have many semantic characteristics in the semantic dictionary, on the basis of the identified many semantic characteristics, the semantic consistency of at least one sequence of words is determined to obtain a phrase, a lot of phrases are selected from the text by comparison their semantic characteristics and the selection according to the results of comparison of the dominant semantic characteristics, transform many into a plurality of key phrases, dominant containing semantic characterization, and form the first derived key phrases and their semantic class characteristics;
- сравнивают последующие ключевые фразы и их семантические характеристики по меньшей мере с одним из предыдущих классов;- compare subsequent key phrases and their semantic characteristics with at least one of the previous classes;
- классифицируют по меньшей мере один текст по результатам сравнения упомянутых последующих ключевых фраз и их семантических характеристик.- classify at least one text based on a comparison of the following subsequent key phrases and their semantic characteristics.
Сущность изобретения состоит в том, что предложен способ построения семантической модели документа, основанный на подготовленном заранее семантическом словаре.The essence of the invention lies in the fact that a method is proposed for constructing a semantic model of a document based on a semantic dictionary prepared in advance.
Поставленный технический результат достигается за счет последовательности используемых процедур. В заявленном способе используется множество так называемых семантем или семем, в терминах которых определяется семантическая согласованность каждой пары слов языка, которые содержатся в семантическом словаре, примером которого может служить семантический словарь «РУСЛАН» (Леонтьева Н.Н. и др. Семантический словарь РУСЛАН как инструмент компьютерного понимания // Понимание в коммуникации - 2003, Материалы научно-практической конференции. М., 2003, с. 41-46) - см. таблицу 1 (далее). Для специалиста в области лингвистики очевидно, что ссылка на указанный словарь «РУСЛАН» приведена для понимания вариантов конкретного воплощения заявленного способа и никоим образом не должна ограничивать объем испрашиваемой в рамках заявленной формулы изобретения правовой охраны. В описываемом способе последовательно используются два метода семантического анализа. С помощью первого применения метода семантического анализа определяются семантически согласованные последовательности слов (фразы) и их семантические характеристики. С помощью второго применения метода семантического анализа определяются множества фраз, обладающих хотя бы одной эквивалентной семантической характеристикой. Из семантических характеристик и слов таких фраз строится вектор семантической категории текста. Вектор семантической категории текста используется для сравнения различных текстов и проводится их автоматическая классификация.The technical result is achieved due to the sequence of procedures used. The claimed method uses a lot of so-called semantes or a sem, in terms of which the semantic consistency of each pair of words in a language is determined, which are contained in a semantic dictionary, an example of which is the semantic dictionary "RUSLAN" (Leontyeva N.N. et al. Semantic Dictionary RUSLAN as tool of computer understanding // Understanding in communication - 2003, Materials of the scientific-practical conference. M., 2003, pp. 41-46) - see table 1 (hereinafter). For a specialist in the field of linguistics, it is obvious that a link to the specified RUSLAN dictionary is provided to understand options for a particular embodiment of the claimed method and should in no way limit the amount of legal protection requested under the claimed claims. In the described method, two methods of semantic analysis are sequentially used. Using the first application of the method of semantic analysis, semantically consistent sequences of words (phrases) and their semantic characteristics are determined. With the help of the second application of the method of semantic analysis, sets of phrases are defined that have at least one equivalent semantic characteristic. From the semantic characteristics and words of such phrases, a vector of the semantic category of text is built. The vector of the semantic category of text is used to compare various texts and their automatic classification is carried out.
Для понимания существа заявленного решения к описанию приложены следующие графические материалы, на которых представлены пример описания слова в семантическом словаре (рис. 1), пример согласованности двух слов при эквивалентности их общих семантических характеристик (рис. 2а), пример согласованности двух слов при эквивалентности общей семантической характеристики одного слова и семантической характеристики другого слова (рис. 2б), а также блок-схема примерного устройства для реализации способа (рис. 3).To understand the essence of the claimed solution, the following graphic materials are attached to the description, which show an example of a description of a word in a semantic dictionary (Fig. 1), an example of the consistency of two words with the equivalence of their common semantic characteristics (Fig. 2a), an example of the consistency of two words with the equivalence of the general the semantic characteristics of one word and the semantic characteristics of another word (Fig. 2b), as well as a block diagram of an example device for implementing the method (Fig. 3).
Согласно предлагаемому способу все процедуры обработки текста можно разделить на пять этапов:According to the proposed method, all text processing procedures can be divided into five stages:
а) предварительная обработка;a) pre-treatment;
б) обучение, связанное с вычислением совместной встречаемости слов в предложении;b) training related to calculating the joint occurrence of words in a sentence;
в) вычисление оценок семантической согласованности слов во фразах;c) the calculation of estimates of the semantic consistency of words in phrases;
г) принятие решения об описании семантической категории текста;d) making a decision on the description of the semantic category of text;
д) операция классификации текста.e) text classification operation.
Предварительная обработка состоит из двух процедур. Первая процедура состоит в чтении словаря семантических характеристик слов, в котором каждому слову приписаны:Pretreatment consists of two procedures. The first procedure consists in reading a dictionary of semantic characteristics of words, in which each word is attributed:
- общие семантические характеристики (OCX);- general semantic characteristics (OCX);
- валентности (ВАЛ), как взаимные отношения между словом и окружающими его семантически связанными словами;- valency (VAL), as a mutual relationship between a word and its surrounding semantically related words;
- семантические характеристики (CXn) окружающих слов в соответствующей валентности, где n - номер соответствующей валентности.- semantic characteristics (CXn) of the surrounding words in the corresponding valency, where n is the number of the corresponding valency.
Каждая семантическая характеристика и валентность определены на множестве семантем. Пример описания слова в семантическом словаре приведен на рис. 1. Список используемых семантем и их значений приведен в таблице 1. Вторая процедура стоит в морфологическом анализе слов из текста, на основе которого определяется их части речи и начальные формы.Each semantic characteristic and valency are defined on many semantems. An example of a description of a word in a semantic dictionary is shown in Fig. 1. The list of used semantems and their meanings is given in table 1. The second procedure is a morphological analysis of words from a text, on the basis of which their parts of speech and initial forms are determined.
Обучение связано с вычислением совместной вероятности встречаемости начальных форм слов внутри предложения при условии, что слова не являются частицами, союзами, междометиями, наречиями или местоимениями. Обучение состоит из последовательности следующих процедур:Learning involves calculating the joint probability of occurrence of the initial forms of words within a sentence, provided that the words are not particles, unions, interjections, adverbs or pronouns. Training consists of a sequence of the following procedures:
- автоматическое чтение корпуса текстов, полученных из открытых источников, например интернета;- automatic reading of the body of texts obtained from open sources, such as the Internet;
- морфологический анализ слов с получением их частей речи и начальных форм;- morphological analysis of words with obtaining their parts of speech and initial forms;
- создание словаря начальных форм;- creating a dictionary of initial forms;
- расчет частоты встречаемости пар начальных форм слов в предложении и расчет общего количества всевозможных пар слов;- calculation of the frequency of occurrence of pairs of initial forms of words in a sentence and calculation of the total number of all possible pairs of words;
- применение процедуры сглаживания Каца с получением значений матрицы совместной встречаемости слов в предложении.- application of the Katz smoothing procedure with obtaining the values of the matrix of joint occurrence of words in the sentence.
Вычисление оценок семантической согласованности слов во фразах состоит из следующих процедур:The calculation of the semantic consistency of words in phrases consists of the following procedures:
- поиск слов текста в словаре семантических характеристик слов;- search for text words in the dictionary of semantic characteristics of words;
- сегментация текста на последовательности, состоящие из m слов (окно анализа текста или фрейм);- text segmentation into sequences consisting of m words (text analysis window or frame);
- смещения окна анализа текста на s слов;- Offsets of the text analysis window by s words;
- перебор всевозможных пар начальных форм слов в окне анализа текста;- enumeration of various pairs of initial word forms in the text analysis window;
- поиск семантической согласованности в этих парах, при которой два слова являются семантически согласованными, если существуют эквивалентные семантемы в полях OCX одного из слов и в полях CXn другого слова;- search for semantic consistency in these pairs, in which two words are semantically consistent if there are equivalent semanthemes in the OCX fields of one of the words and in the CXn fields of the other word;
- поиск наиболее вероятной семантически согласованной фразы в окне анализа, вычисление ее вероятности и семантических характеристик.- search for the most likely semantically consistent phrase in the analysis window, calculating its probability and semantic characteristics.
Процедура определения семантической согласованности пары слов состоит в сравнении общих семантических характеристик (OCX) одного слова с общими семантическими характеристиками (OCX) или семантическими характеристиками (CXn) окружающих его слов в соответствующей валентности.The procedure for determining the semantic consistency of a pair of words consists in comparing the general semantic characteristics (OCX) of one word with the general semantic characteristics (OCX) or semantic characteristics (CXn) of the words surrounding it in the corresponding valency.
Пример согласованности двух слов - «абзац книги» при эквивалентности их общих семантических характеристик приведен на рисунке 2а. В этом случае результатом операции согласования является объединение OCX и CXn двух слов.An example of the consistency of two words - “paragraph of the book” with the equivalence of their common semantic characteristics is shown in Figure 2a. In this case, the result of the matching operation is the combination of OCX and CXn of two words.
Пример согласованности двух слов - «банковский клерк» при эквивалентности общей семантической характеристики одного слова и семантической характеристики другого слова приведен на рисунке 2б. В этом случае результатом операции согласования является объединение OCX и CXn двух слов с поглощением эквивалентной CXn и ее валентности.An example of the consistency of two words - “bank clerk” with the equivalence of the general semantic characteristics of one word and the semantic characteristics of another word is shown in Figure 2b. In this case, the result of the matching operation is the combination of OCX and CXn of two words with the absorption of the equivalent CXn and its valency.
В качестве вероятности согласованной пары слов используется сглаженная вероятность совместной встречи пары этих слов в предложении.As the probability of a matched pair of words, the smoothed probability of a joint meeting of a pair of these words in a sentence is used.
В результате работы блока оценок семантической согласованности слов во фразах формируется множество фраз, каждая из которых определена набором своих семантических характеристик и валентностей.As a result of the work of the unit for evaluating the semantic consistency of words in phrases, many phrases are formed, each of which is defined by a set of its semantic characteristics and valencies.
Метод оценок семантической согласованности слов во фразах можно пояснить с помощью следующего представления. Расположим все слова фрейма в столбце и в строке. Между каждой парой слов была найдена согласованность слов со своими характеристиками и своей вероятностью. Если согласованность не найдена, то вероятность их согласованности принимается значению из сглаженной матрицы совместной встречаемости слов. Формально, необходимо найти такую последовательность слов (траекторию), чтобы, с одной стороны, функционал (1)The method of evaluating the semantic consistency of words in phrases can be explained using the following representation. Place all the frame words in the column and row. Between each pair of words, a consistency of words was found with its characteristics and its probability. If the consistency is not found, then the probability of their consistency is taken as the value from the smoothed matrix of joint occurrence of words. Formally, it is necessary to find a sequence of words (trajectory) such that, on the one hand, functional (1)
обладал максимальной вероятностью среди всех прочих последовательностей, а с другой стороны, слово в этой траектории не встречалось дважды. Такого рода задачи решаются с помощью известного алгоритма Витерби или т.п.possessed the maximum probability among all other sequences, and on the other hand, the word in this trajectory did not occur twice. Such problems are solved using the well-known Viterbi algorithm or the like.
Семантически согласованные фразы, найденные во фреймах, образуют множество фраз, каждое из которых описывается своими общими семантическим характеристиками, которые получены путем объединения общих семантических характеристик, входящих во фразу слов.The semantically consistent phrases found in the frames form many phrases, each of which is described by its common semantic characteristics, which are obtained by combining common semantic characteristics included in the phrase of words.
Каждая фраза из этого множества сравнивается со всеми прочими фразами множества на предмет эквивалентности семантем. Таким образом, каждая фраза начинает обладать своим подмножеством фраз, в каждой из которых у нее есть по крайней мере одна эквивалентная семантема. Из всех этих подмножеств выбирают подмножество максимальной мощности. Подмножество фраз вместе со своими описаниями передается в блок формирования семантического вектора текста.Each phrase from this set is compared with all other phrases of the set for semantem equivalence. Thus, each phrase begins to have its own subset of phrases, in each of which it has at least one equivalent semanthem. Of all these subsets, a subset of maximum power is selected. A subset of phrases, together with their descriptions, is transferred to the block for the formation of the semantic text vector.
Вектор описания семантической категории текста состоит из двух частей. Первая часть состоит из множества различных семантем, которые встречались в подмножестве семантически согласованных фраз, вторая - из различных начальных форм слов, входящих в подмножество семантически согласованных фраз.The semantic category description text vector consists of two parts. The first part consists of many different semantems that were found in a subset of semantically consistent phrases, the second - of various initial forms of words included in a subset of semantically consistent phrases.
Процедура классификации текстов состоит в сравнении векторов описания семантической категории двух различных текстов. Процедура сравнения проводится отдельно для каждой части вектора. Для первой части вектора если текст 1 характеризует k1 семантем, а текст 2 характеризует k2 семантем, при этом d семантем совпадают, то мера близости μ1 текста 1 к тексту 2 определяется выражением (2)The procedure for classifying texts consists in comparing the description vectors of the semantic category of two different texts. The comparison procedure is carried out separately for each part of the vector. For the first part of the vector, if
. .
Для второй части вектора если текст 1 характеризует w1 начальными формами слов из фраз, а текст 2 характеризует w2 начальными формами слов из фраз, при этом слов совпадают, то мера близости μ2 текста 1 к тексту 2 определяется выражением (3)For the second part of the vector, if
Решение о принадлежности текстов к одному и тому же классу принимается на основе расчета выражения (4), при котором, если по результатам вычисления значение r менее заранее заданного порога Q (выбирают эмпирически или расчетным путем), то принимается решение, что оба текста принадлежат к одному и тому же классуThe decision on whether the texts belong to the same class is made on the basis of the calculation of expression (4), in which if, according to the results of the calculation, the value of r is less than a predetermined threshold Q (chosen empirically or by calculation), then the decision is made that both texts belong to the same class
Изобретение поясняется блок-схемой устройства для реализации способа (рис. 3).The invention is illustrated by a block diagram of a device for implementing the method (Fig. 3).
Устройство включает в себя блок 1 чтения текстов из заранее подготовленного корпуса текстов и передачи таких текстов по одному слову в блок морфологического анализа 2.The device includes a
На выходе блока 2 морфологического анализа в ответ на входное слово возникают начальная форма слова и его часть речи. Эти параметры передаются в блок отбора слов по его части речи 3. На выходе этого блока возникают начальные формы слов в случае, если они не являются частицами, союзами, междометиями, наречиями или местоимениями. Один из выходов блока 4 связан с хранилищем начальных форм слов 5 для сравнения поступающих на вход блока 4 начальных форм слов с начальными формами, содержащимися в хранилище 5. Если на входе блока 4 возникает слово, которое не содержится в хранилище 5, то блок 4 вносит такое новое слово в хранилище. По результатам обработки корпуса текстов в хранилище 5 содержатся все возможные начальные формы, содержащиеся в корпусе с получением числа N различных начальных форм. Такое число передают в блок 7, в котором происходит инициализация матрицы N*N, поступающей в хранилище матрицы частот встречаемости пар слов в предложении 8. Второй из выходов блока 4 связан с блоком 6 сравнения пар слов, поступивших из блока 4 с парами слов, содержащимися в хранилище 8, и суммирует в элемент матрицы, соответствующий поступившей паре слов, единицу. Результатом работы блока 6 является заполнение хранилища 8 частотами встречаемости пар слов в ходе обработки корпуса текстов. Блок 9 вычисляет значения матрицы совместной вероятности пар слов на основе матрицы встречаемости пар слов, содержащихся в хранилище 8. Поскольку корпус текстов содержит не все слова языка, то вероятно, что некоторые частоты встречаемости некоторых пар слов будут равны нулю. С другой стороны, велика вероятность встретить такую пару слов в каком-либо неизвестном тексте. В этом случае на основе такой статистической модели вероятность встретить новую последовательность слов будет равна нулю. Блок 10 использует сглаживание матрицы совместных вероятностей слов методом Каца. Элементы матрицы совместных вероятностей помещаются в хранилище 11, связанное с блоком 17. Особо следует отметить, что наличие описанной последовательности действия является следствием речевого разнообразия языка и является своего рода параллельным этапом при выполнении нижеописанной последовательности действий.At the output of
Текстовые файлы, полученные в результате распознавания речи, поступают в блок 12 для прочтения. Слова из блока 12 поступают на вход морфологического анализатора 2, в котором определяются их начальные формы и части речи, и далее в блок 13 сегментации текста на фреймы заданного размера. Слова из выделенного блоком 13 фрейма поочередно передаются в блок 15 поиска слова в семантическом словаре, который был предварительно прочитан блоком 14. Блок 16 проводит сравнение семантических характеристик слов и определение их по парной согласованности. Далее, в блоке 17 находят значение максимума функционала (1) и последовательность слов (фразу) доставившую функционалу этот максимум. Из блока 17 найденную фразу со своими семантическими характеристиками передают в хранилище семантически согласованных фраз 18, связанное с блоком 19. В блоке 19 (компараторе) проводят попарное сравнение семантических характеристик накопленных в хранилище 18 фраз и каждой фразе ставят в соответствие подмножество фраз, в которых есть по крайней мере одна эквивалентная семантема. Затем происходит выбор подмножества максимальной мощности. Элементы этого подмножества (фразы) вместе со своими семантическими характеристиками передаются в блок 20 формирования семантического вектора текста.Text files obtained as a result of speech recognition are received in
В блоке 20 формируется семантический вектор текста, который состоит из двух частей: а) множества различных семантем, которые встречались в подмножестве семантически согласованных фраз; б) различных начальных форм слов, входящих в подмножество семантически согласованных фраз. Семантический вектор текста помещается в хранилище 21 семантических векторов текстов. Когда в хранилище 21 поступает более одного семантического вектора, эти семантические вектора сравниваются в блоке 22 с помощью формул (2)÷(4). Если для любых сохраненных в хранилище семантических векторов параметр r больше порога Q, то вновь поступивший семантический вектор сохраняется и считается, что он определяет новую семантическую категорию. Если же в хранилищ t нашелся такой семантический вектор, для которого параметр r меньше порога, то считается, что связанная с ним семантическая категория уже существует, и он не сохраняется.In
Таким образом, в хранилище 21 автоматически сохраняются только новые семантические категории поступающих текстов.Thus, only new semantic categories of incoming texts are automatically stored in the
Claims (5)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2016130336A RU2628897C1 (en) | 2016-07-25 | 2016-07-25 | Method of classifiying texts received as result of speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2016130336A RU2628897C1 (en) | 2016-07-25 | 2016-07-25 | Method of classifiying texts received as result of speech recognition |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2628897C1 true RU2628897C1 (en) | 2017-08-22 |
Family
ID=59744862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2016130336A RU2628897C1 (en) | 2016-07-25 | 2016-07-25 | Method of classifiying texts received as result of speech recognition |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2628897C1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2714899C1 (en) * | 2019-11-10 | 2020-02-20 | Игорь Петрович Рогачев | Method of forming an ontological database of a structured data array |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040001099A1 (en) * | 2002-06-27 | 2004-01-01 | Microsoft Corporation | Method and system for associating actions with semantic labels in electronic documents |
RU2487403C1 (en) * | 2011-11-30 | 2013-07-10 | Федеральное государственное бюджетное учреждение науки Институт системного программирования Российской академии наук | Method of constructing semantic model of document |
RU2491622C1 (en) * | 2012-01-25 | 2013-08-27 | Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" | Method of classifying documents by categories |
US20140351178A1 (en) * | 2013-05-24 | 2014-11-27 | Abbyy Infopoisk Llc | Iterative word list expansion |
RU2538304C1 (en) * | 2013-08-22 | 2015-01-10 | Александр Александрович Харламов | Method for automatic semantic classification of natural language texts |
RU2546555C1 (en) * | 2013-12-11 | 2015-04-10 | Федеральное государственное казенное военное образовательное учреждение высшего профессионального образования "ВОЕННАЯ АКАДЕМИЯ СВЯЗИ имени Маршала Советского Союза С.М. Буденного" Министерства обороны Российской Федерации | Method of automated classification of formalised documents in electronic document circulation system |
-
2016
- 2016-07-25 RU RU2016130336A patent/RU2628897C1/en active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040001099A1 (en) * | 2002-06-27 | 2004-01-01 | Microsoft Corporation | Method and system for associating actions with semantic labels in electronic documents |
RU2487403C1 (en) * | 2011-11-30 | 2013-07-10 | Федеральное государственное бюджетное учреждение науки Институт системного программирования Российской академии наук | Method of constructing semantic model of document |
RU2491622C1 (en) * | 2012-01-25 | 2013-08-27 | Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" | Method of classifying documents by categories |
US20140351178A1 (en) * | 2013-05-24 | 2014-11-27 | Abbyy Infopoisk Llc | Iterative word list expansion |
RU2538304C1 (en) * | 2013-08-22 | 2015-01-10 | Александр Александрович Харламов | Method for automatic semantic classification of natural language texts |
RU2546555C1 (en) * | 2013-12-11 | 2015-04-10 | Федеральное государственное казенное военное образовательное учреждение высшего профессионального образования "ВОЕННАЯ АКАДЕМИЯ СВЯЗИ имени Маршала Советского Союза С.М. Буденного" Министерства обороны Российской Федерации | Method of automated classification of formalised documents in electronic document circulation system |
Non-Patent Citations (1)
Title |
---|
НГУЕН БА НГОК и др., "Классификация текстов на основе оценки семантической близости терминов", Известия Томского политехнического университета, 2012. ЛЕОНТЬЕВА Н.Н., "АВТОМАТИЧЕСКОЕ ПОНИМАНИЕ ТЕКСТОВ: СИСТЕМЫ, МОДЕЛИ, РЕСУРСЫ ", МОСКВА, 2006. * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2714899C1 (en) * | 2019-11-10 | 2020-02-20 | Игорь Петрович Рогачев | Method of forming an ontological database of a structured data array |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107480143B (en) | Method and system for segmenting conversation topics based on context correlation | |
Fan et al. | Apply word vectors for sentiment analysis of APP reviews | |
KR101715118B1 (en) | Deep Learning Encoding Device and Method for Sentiment Classification of Document | |
KR20180048624A (en) | A training device of the Q & A system and a computer program for it | |
Nabil et al. | Labr: A large scale arabic sentiment analysis benchmark | |
Zhang et al. | Research on the Majority Decision Algorithm based on WeChat sentiment classification | |
Habib et al. | An exploratory approach to find a novel metric based optimum language model for automatic bangla word prediction | |
Ansari et al. | Language Identification of Hindi-English tweets using code-mixed BERT | |
US20190129948A1 (en) | Generating method, generating device, and recording medium | |
Sarkar | Part-of-speech tagging for code-mixed indian social media text at icon 2015 | |
RU2628897C1 (en) | Method of classifiying texts received as result of speech recognition | |
Defersha et al. | Tuning hyperparameters of machine learning methods for afan oromo hate speech text detection for social media | |
Castillo et al. | Using sentence semantic similarity based on WordNet in recognizing textual entailment | |
CN114896404A (en) | Document classification method and device | |
Ibrahim et al. | A study of using language models to detect sarcasm | |
Povoda et al. | Emotion recognition from helpdesk messages | |
Moodley | Language identification with decision trees: Identification of individual words in the south african languages | |
Angeline et al. | Misogyny speech detection using long short-term memory and bert embeddings | |
Zhang et al. | Segmenting Chinese Microtext: Joint Informal-Word Detection and Segmentation with Neural Networks. | |
Eyamin et al. | An investigative design of optimum stochastic language model for bangla autocomplete | |
Taghandiki et al. | Automatic summarisation of Instagram social network posts Combining semantic and statistical approaches | |
Al-Amin et al. | A comprehensive study on sentiment of bengali text | |
CN112528653A (en) | Short text entity identification method and system | |
Uma et al. | Analysis of Ensemble Classification of Twitter Sentiments Using New Dependency Tree Based Approach | |
KR101620078B1 (en) | System for classifying emotion strengthen to orthographical error and method thereof |