RU2628897C1

RU2628897C1 - Method of classifiying texts received as result of speech recognition

Info

Publication number: RU2628897C1
Application number: RU2016130336A
Authority: RU
Inventors: Дмитрий Анатолиевич Леднов; Павел Викторович Соломатин; Александр Павлович Зыков; Виктор Алексеевич Истратов
Original assignee: Общество С Ограниченной Ответственностью "Дс-Системс"
Priority date: 2016-07-25
Filing date: 2016-07-25
Publication date: 2017-08-22

Abstract

FIELD: physics.

SUBSTANCE: method of classifying the text includes the initial creation of a semantic dictionary in the form of a repository of semantic characteristics of words. Then the spoken language is recognized, and the text is received. In the result of the spoken language recognition, each word is selected in the text. A plurality of semantic characteristics in the semantic dictionary is found for each selected word. On the basis of the identified plurality of the semantic characteristics, the semantic consistency of, at least, one word sequence is determined to obtain a phrase. A plurality of phrases is selected from the text with a comparison of their semantic characteristics and the selection of the results of comparison of the dominant semantic characteristics. A plurality of phrases is converted into a plurality of key phrases containing a dominant semantic characteristic. A class is formed from the first received key phrases and their semantic characteristics.

EFFECT: increasing the accuracy of classifying the text files obtained as a result of recognizing speech in the telephone communication.

4 dwg, 1 tbl

Description

Изобретение относится к области анализа и обработки текстов и может быть использовано для классификации потока текстовых файлов, полученных в результате распознавания слитной речи в каналах телефонной связи, по заранее неизвестным классам. Изобретения также предоставляет возможность создания программных систем для автоматической классификации телефонных переговоров в колл-центрах.The invention relates to the field of analysis and word processing and can be used to classify the flow of text files obtained as a result of recognition of continuous speech in telephone communication channels according to previously unknown classes. The invention also provides the ability to create software systems for the automatic classification of telephone calls in call centers.

Известен способ обработки текста, основанный на методе статистического анализа текстов, основанный на предварительной подготовке данных, в которой предложения или группа предложений с помощью опытных лингвистов классифицируют тематическими маркерами из фиксированного множества тематических маркеров. Предполагают, что текст (последовательность предложений) порождается последовательностью тематических переменных, которые подчинены скрытой модели Маркова. Скрытая модель Маркова определяется условными вероятностями следования друг за другом тематических переменных и условными вероятностями возникновения тематического маркера при известных предложениях и тематической переменной. С помощью ЕМ-алгоритма эти условные вероятности можно найти на основе предварительно подготовленных данных (Christina Sauper, Aria Haghighi, Regina Barzilay, Incorporating Content Structure into Text Analysis Applications // Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, pages 377-387, MIT, Massachusetts, USA, 9-11 October 2010. 2010 Association for Computational Linguistics).A known method of text processing based on the method of statistical analysis of texts, based on preliminary data preparation, in which sentences or a group of sentences with the help of experienced linguists is classified by thematic markers from a fixed set of thematic markers. It is assumed that the text (sequence of sentences) is generated by a sequence of thematic variables that are subordinate to the hidden Markov model. The hidden Markov model is determined by the conditional probabilities of thematic variables following each other and the conditional probabilities of the emergence of a thematic marker with known sentences and thematic variables. Using the EM algorithm, these conditional probabilities can be found based on pre-prepared data (Christina Sauper, Aria Haghighi, Regina Barzilay, Incorporating Content Structure into Text Analysis Applications // Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, pages 377- 387, MIT, Massachusetts, USA, October 9-11, 2010. 2010 Association for Computational Linguistics).

Данный способ обладает существенным недостатком, который связан с тем, что классификация текстов возможна только в рамках известного множества тем документов, В случае появления документа, не принадлежащего ни одному из существующих классов, такой документ будет классифицирован случайным образом.This method has a significant drawback, which is due to the fact that the classification of texts is possible only within the framework of a well-known set of document topics. If a document appears that does not belong to any of the existing classes, such a document will be classified at random.

Известен также способ обработки текста, основанный на методе k-ближайших соседей и дополненный матрицей совместной встречаемости терминов в документах, определяющих класс (Нгуен Ба Нгок, А.Ф. Тузовский. Классификация текстов на основе оценки семантической близости терминов // Известия Томского политехнического университета, 2012, т. 320, №5). Способ обладает высокой точностью, но и существенным недостатком, а именно невозможностью его применения для работы с искаженным текстом в виду искажения терминов и/или возможной заменой.There is also a known text processing method based on the k-nearest neighbors method and supplemented by the term co-occurrence matrix in the documents defining the class (Nguyen Ba Ngok, A.F. Tuzovsky. Text classification based on the semantic proximity of terms // Bulletin of the Tomsk Polytechnic University, 2012, t. 320, No. 5). The method has high accuracy, but also a significant drawback, namely the impossibility of its use for working with distorted text in view of the distortion of terms and / or possible replacement.

Наиболее близким к предлагаемому способу, является способ, принятый в качестве наиболее близкого аналога, используемый при построении семантической модели документа, по которому из информационных источников извлекают онтологию, в качестве информационных источников используют электронные ресурсы, анализируют описания и определяют значения терминов с помощью онтологии, извлеченных из гипертекстовых энциклопедий, вычисляют частоту совместного использования каждого текстового представления концепции и информативность для каждого текстового представления, также определяют, какому естественному языку принадлежит текстовое представление, и сохраняют полученную информацию, получают текст анализируемого документа, осуществляют поиск терминов текста и их возможных значений путем сопоставления частей текста и текстовых представлений концепций из контролируемого словаря для каждого термина из его возможных значений, используя алгоритм разрешения лексической многозначности терминов, выбирают одно, которое считают значением термина, а затем концепции, соответствующие значениям терминов, ранжируют по важности к тексту, и наиболее важные концепции считают семантической моделью документа (патент РФ на изобретение №2487403).Closest to the proposed method is the method adopted as the closest analogue used in constructing the semantic model of a document according to which an ontology is extracted from information sources, electronic resources are used as information sources, analysis of descriptions and determination of the meaning of terms using ontology extracted from hypertext encyclopedias, calculate the frequency of sharing of each textual representation of the concept and information content for each of the cross presentation, it is also determined which natural language the text representation belongs to, and the information obtained is saved, the text of the analyzed document is obtained, the text terms and their possible meanings are searched by comparing text parts and conceptual text representations from the controlled vocabulary for each term from its possible meanings, using the algorithm for resolving the lexical ambiguity of terms, choose one that is considered the meaning of the term, and then the concepts corresponding to e meaning of the term, ranked according to the importance of the text, and the most important concept is considered a semantic document model (RF patent №2487403).

Недостатком наиболее близкого аналога является низкая точность, которая связана с использованием только ключевых терминов для построения семантической модели документа. Таким образом, технический результат, достигаемый при создании заявленного способа, состоит в повышении точности классификации текстовых файлов, полученных при распознавании слитной речи в каналах телефонной связи, а также в возможности полной автоматизации такой классификации текстов независимо от тематики.The disadvantage of the closest analogue is the low accuracy, which is associated with the use of only key terms to build a semantic model of the document. Thus, the technical result achieved when creating the claimed method consists in increasing the accuracy of the classification of text files obtained when recognizing continuous speech in telephone communication channels, as well as in the possibility of full automation of such classification of texts regardless of subject.

Для достижения поставленного результата предлагается способ классификации текста, полученного в результате распознавания устной речи, включающий первоначальное создание (использование) хранилища начальных форм (семантических характеристик) слов (семантический словарь) и последующее проведение, например, посредством вычислительного устройства (компьютера) по меньшей мере один раз следующей последовательности действий:To achieve the result, a method for classifying text obtained as a result of recognition of oral speech is proposed, including the initial creation (use) of a storage of the initial forms (semantic characteristics) of words (semantic dictionary) and subsequent conduct, for example, by means of a computing device (computer) at least one times of the following sequence of actions:

- распознают устную речь с получением текста;- Recognize spoken language with text;

- в полученном в результате распознавания устной речи тексте выделяют каждое слово, находят каждому выделенному слову множество семантических характеристик в семантическом словаре, на основе выявленного множества семантических характеристик определяют семантическую согласованность по меньшей мере одной последовательности слов с получением фразы, выделяют из текста множество фраз со сравнением их семантических характеристик и выделением по результатам сравнения доминирующей семантической характеристики, преобразуют множество фраз во множество ключевых фраз, содержащих доминирующую семантическую характеристику, и формируют из первых полученных ключевых фраз и их семантических характеристик класс;- in the text obtained as a result of the recognition of oral speech, each word is highlighted, each selected word is found to have many semantic characteristics in the semantic dictionary, on the basis of the identified many semantic characteristics, the semantic consistency of at least one sequence of words is determined to obtain a phrase, a lot of phrases are selected from the text by comparison their semantic characteristics and the selection according to the results of comparison of the dominant semantic characteristics, transform many into a plurality of key phrases, dominant containing semantic characterization, and form the first derived key phrases and their semantic class characteristics;

- сравнивают последующие ключевые фразы и их семантические характеристики по меньшей мере с одним из предыдущих классов;- compare subsequent key phrases and their semantic characteristics with at least one of the previous classes;

- классифицируют по меньшей мере один текст по результатам сравнения упомянутых последующих ключевых фраз и их семантических характеристик.- classify at least one text based on a comparison of the following subsequent key phrases and their semantic characteristics.

Сущность изобретения состоит в том, что предложен способ построения семантической модели документа, основанный на подготовленном заранее семантическом словаре.The essence of the invention lies in the fact that a method is proposed for constructing a semantic model of a document based on a semantic dictionary prepared in advance.

Поставленный технический результат достигается за счет последовательности используемых процедур. В заявленном способе используется множество так называемых семантем или семем, в терминах которых определяется семантическая согласованность каждой пары слов языка, которые содержатся в семантическом словаре, примером которого может служить семантический словарь «РУСЛАН» (Леонтьева Н.Н. и др. Семантический словарь РУСЛАН как инструмент компьютерного понимания // Понимание в коммуникации - 2003, Материалы научно-практической конференции. М., 2003, с. 41-46) - см. таблицу 1 (далее). Для специалиста в области лингвистики очевидно, что ссылка на указанный словарь «РУСЛАН» приведена для понимания вариантов конкретного воплощения заявленного способа и никоим образом не должна ограничивать объем испрашиваемой в рамках заявленной формулы изобретения правовой охраны. В описываемом способе последовательно используются два метода семантического анализа. С помощью первого применения метода семантического анализа определяются семантически согласованные последовательности слов (фразы) и их семантические характеристики. С помощью второго применения метода семантического анализа определяются множества фраз, обладающих хотя бы одной эквивалентной семантической характеристикой. Из семантических характеристик и слов таких фраз строится вектор семантической категории текста. Вектор семантической категории текста используется для сравнения различных текстов и проводится их автоматическая классификация.The technical result is achieved due to the sequence of procedures used. The claimed method uses a lot of so-called semantes or a sem, in terms of which the semantic consistency of each pair of words in a language is determined, which are contained in a semantic dictionary, an example of which is the semantic dictionary "RUSLAN" (Leontyeva N.N. et al. Semantic Dictionary RUSLAN as tool of computer understanding // Understanding in communication - 2003, Materials of the scientific-practical conference. M., 2003, pp. 41-46) - see table 1 (hereinafter). For a specialist in the field of linguistics, it is obvious that a link to the specified RUSLAN dictionary is provided to understand options for a particular embodiment of the claimed method and should in no way limit the amount of legal protection requested under the claimed claims. In the described method, two methods of semantic analysis are sequentially used. Using the first application of the method of semantic analysis, semantically consistent sequences of words (phrases) and their semantic characteristics are determined. With the help of the second application of the method of semantic analysis, sets of phrases are defined that have at least one equivalent semantic characteristic. From the semantic characteristics and words of such phrases, a vector of the semantic category of text is built. The vector of the semantic category of text is used to compare various texts and their automatic classification is carried out.

Для понимания существа заявленного решения к описанию приложены следующие графические материалы, на которых представлены пример описания слова в семантическом словаре (рис. 1), пример согласованности двух слов при эквивалентности их общих семантических характеристик (рис. 2а), пример согласованности двух слов при эквивалентности общей семантической характеристики одного слова и семантической характеристики другого слова (рис. 2б), а также блок-схема примерного устройства для реализации способа (рис. 3).To understand the essence of the claimed solution, the following graphic materials are attached to the description, which show an example of a description of a word in a semantic dictionary (Fig. 1), an example of the consistency of two words with the equivalence of their common semantic characteristics (Fig. 2a), an example of the consistency of two words with the equivalence of the general the semantic characteristics of one word and the semantic characteristics of another word (Fig. 2b), as well as a block diagram of an example device for implementing the method (Fig. 3).

Согласно предлагаемому способу все процедуры обработки текста можно разделить на пять этапов:According to the proposed method, all text processing procedures can be divided into five stages:

а) предварительная обработка;a) pre-treatment;

б) обучение, связанное с вычислением совместной встречаемости слов в предложении;b) training related to calculating the joint occurrence of words in a sentence;

в) вычисление оценок семантической согласованности слов во фразах;c) the calculation of estimates of the semantic consistency of words in phrases;

г) принятие решения об описании семантической категории текста;d) making a decision on the description of the semantic category of text;

д) операция классификации текста.e) text classification operation.

Предварительная обработка состоит из двух процедур. Первая процедура состоит в чтении словаря семантических характеристик слов, в котором каждому слову приписаны:Pretreatment consists of two procedures. The first procedure consists in reading a dictionary of semantic characteristics of words, in which each word is attributed:

- общие семантические характеристики (OCX);- general semantic characteristics (OCX);

- валентности (ВАЛ), как взаимные отношения между словом и окружающими его семантически связанными словами;- valency (VAL), as a mutual relationship between a word and its surrounding semantically related words;

- семантические характеристики (CXn) окружающих слов в соответствующей валентности, где n - номер соответствующей валентности.- semantic characteristics (CXn) of the surrounding words in the corresponding valency, where n is the number of the corresponding valency.

Каждая семантическая характеристика и валентность определены на множестве семантем. Пример описания слова в семантическом словаре приведен на рис. 1. Список используемых семантем и их значений приведен в таблице 1. Вторая процедура стоит в морфологическом анализе слов из текста, на основе которого определяется их части речи и начальные формы.Each semantic characteristic and valency are defined on many semantems. An example of a description of a word in a semantic dictionary is shown in Fig. 1. The list of used semantems and their meanings is given in table 1. The second procedure is a morphological analysis of words from a text, on the basis of which their parts of speech and initial forms are determined.

Обучение связано с вычислением совместной вероятности встречаемости начальных форм слов внутри предложения при условии, что слова не являются частицами, союзами, междометиями, наречиями или местоимениями. Обучение состоит из последовательности следующих процедур:Learning involves calculating the joint probability of occurrence of the initial forms of words within a sentence, provided that the words are not particles, unions, interjections, adverbs or pronouns. Training consists of a sequence of the following procedures:

- автоматическое чтение корпуса текстов, полученных из открытых источников, например интернета;- automatic reading of the body of texts obtained from open sources, such as the Internet;

- морфологический анализ слов с получением их частей речи и начальных форм;- morphological analysis of words with obtaining their parts of speech and initial forms;

- создание словаря начальных форм;- creating a dictionary of initial forms;

- расчет частоты встречаемости пар начальных форм слов в предложении и расчет общего количества всевозможных пар слов;- calculation of the frequency of occurrence of pairs of initial forms of words in a sentence and calculation of the total number of all possible pairs of words;

- применение процедуры сглаживания Каца с получением значений матрицы совместной встречаемости слов в предложении.- application of the Katz smoothing procedure with obtaining the values of the matrix of joint occurrence of words in the sentence.

Вычисление оценок семантической согласованности слов во фразах состоит из следующих процедур:The calculation of the semantic consistency of words in phrases consists of the following procedures:

- поиск слов текста в словаре семантических характеристик слов;- search for text words in the dictionary of semantic characteristics of words;

- сегментация текста на последовательности, состоящие из m слов (окно анализа текста или фрейм);- text segmentation into sequences consisting of m words (text analysis window or frame);

- смещения окна анализа текста на s слов;- Offsets of the text analysis window by s words;

- перебор всевозможных пар начальных форм слов в окне анализа текста;- enumeration of various pairs of initial word forms in the text analysis window;

- поиск семантической согласованности в этих парах, при которой два слова являются семантически согласованными, если существуют эквивалентные семантемы в полях OCX одного из слов и в полях CXn другого слова;- search for semantic consistency in these pairs, in which two words are semantically consistent if there are equivalent semanthemes in the OCX fields of one of the words and in the CXn fields of the other word;

- поиск наиболее вероятной семантически согласованной фразы в окне анализа, вычисление ее вероятности и семантических характеристик.- search for the most likely semantically consistent phrase in the analysis window, calculating its probability and semantic characteristics.

Процедура определения семантической согласованности пары слов состоит в сравнении общих семантических характеристик (OCX) одного слова с общими семантическими характеристиками (OCX) или семантическими характеристиками (CXn) окружающих его слов в соответствующей валентности.The procedure for determining the semantic consistency of a pair of words consists in comparing the general semantic characteristics (OCX) of one word with the general semantic characteristics (OCX) or semantic characteristics (CXn) of the words surrounding it in the corresponding valency.

Пример согласованности двух слов - «абзац книги» при эквивалентности их общих семантических характеристик приведен на рисунке 2а. В этом случае результатом операции согласования является объединение OCX и CXn двух слов.An example of the consistency of two words - “paragraph of the book” with the equivalence of their common semantic characteristics is shown in Figure 2a. In this case, the result of the matching operation is the combination of OCX and CXn of two words.

Пример согласованности двух слов - «банковский клерк» при эквивалентности общей семантической характеристики одного слова и семантической характеристики другого слова приведен на рисунке 2б. В этом случае результатом операции согласования является объединение OCX и CXn двух слов с поглощением эквивалентной CXn и ее валентности.An example of the consistency of two words - “bank clerk” with the equivalence of the general semantic characteristics of one word and the semantic characteristics of another word is shown in Figure 2b. In this case, the result of the matching operation is the combination of OCX and CXn of two words with the absorption of the equivalent CXn and its valency.

В качестве вероятности согласованной пары слов используется сглаженная вероятность совместной встречи пары этих слов в предложении.As the probability of a matched pair of words, the smoothed probability of a joint meeting of a pair of these words in a sentence is used.

В результате работы блока оценок семантической согласованности слов во фразах формируется множество фраз, каждая из которых определена набором своих семантических характеристик и валентностей.As a result of the work of the unit for evaluating the semantic consistency of words in phrases, many phrases are formed, each of which is defined by a set of its semantic characteristics and valencies.

Метод оценок семантической согласованности слов во фразах можно пояснить с помощью следующего представления. Расположим все слова фрейма в столбце и в строке. Между каждой парой слов была найдена согласованность слов со своими характеристиками и своей вероятностью. Если согласованность не найдена, то вероятность их согласованности принимается значению из сглаженной матрицы совместной встречаемости слов. Формально, необходимо найти такую последовательность слов (траекторию), чтобы, с одной стороны, функционал (1)The method of evaluating the semantic consistency of words in phrases can be explained using the following representation. Place all the frame words in the column and row. Between each pair of words, a consistency of words was found with its characteristics and its probability. If the consistency is not found, then the probability of their consistency is taken as the value from the smoothed matrix of joint occurrence of words. Formally, it is necessary to find a sequence of words (trajectory) such that, on the one hand, functional (1)

обладал максимальной вероятностью среди всех прочих последовательностей, а с другой стороны, слово в этой траектории не встречалось дважды. Такого рода задачи решаются с помощью известного алгоритма Витерби или т.п.possessed the maximum probability among all other sequences, and on the other hand, the word in this trajectory did not occur twice. Such problems are solved using the well-known Viterbi algorithm or the like.

Семантически согласованные фразы, найденные во фреймах, образуют множество фраз, каждое из которых описывается своими общими семантическим характеристиками, которые получены путем объединения общих семантических характеристик, входящих во фразу слов.The semantically consistent phrases found in the frames form many phrases, each of which is described by its common semantic characteristics, which are obtained by combining common semantic characteristics included in the phrase of words.

Каждая фраза из этого множества сравнивается со всеми прочими фразами множества на предмет эквивалентности семантем. Таким образом, каждая фраза начинает обладать своим подмножеством фраз, в каждой из которых у нее есть по крайней мере одна эквивалентная семантема. Из всех этих подмножеств выбирают подмножество максимальной мощности. Подмножество фраз вместе со своими описаниями передается в блок формирования семантического вектора текста.Each phrase from this set is compared with all other phrases of the set for semantem equivalence. Thus, each phrase begins to have its own subset of phrases, in each of which it has at least one equivalent semanthem. Of all these subsets, a subset of maximum power is selected. A subset of phrases, together with their descriptions, is transferred to the block for the formation of the semantic text vector.

Вектор описания семантической категории текста состоит из двух частей. Первая часть состоит из множества различных семантем, которые встречались в подмножестве семантически согласованных фраз, вторая - из различных начальных форм слов, входящих в подмножество семантически согласованных фраз.The semantic category description text vector consists of two parts. The first part consists of many different semantems that were found in a subset of semantically consistent phrases, the second - of various initial forms of words included in a subset of semantically consistent phrases.

Процедура классификации текстов состоит в сравнении векторов описания семантической категории двух различных текстов. Процедура сравнения проводится отдельно для каждой части вектора. Для первой части вектора если текст 1 характеризует k₁ семантем, а текст 2 характеризует k₂ семантем, при этом d семантем совпадают, то мера близости μ₁ текста 1 к тексту 2 определяется выражением (2)The procedure for classifying texts consists in comparing the description vectors of the semantic category of two different texts. The comparison procedure is carried out separately for each part of the vector. For the first part of the vector, if text 1 characterizes k ₁ semantems and text 2 characterizes k ₂ semantems, while d semantems coincide, then the measure of proximity μ _{1 of} text 1 to text 2 is determined by expression (2)

.

Для второй части вектора если текст 1 характеризует w₁ начальными формами слов из фраз, а текст 2 характеризует w₂ начальными формами слов из фраз, при этом

слов совпадают, то мера близости μ₂ текста 1 к тексту 2 определяется выражением (3)For the second part of the vector, if text 1 characterizes w _{1 with the} initial forms of words from phrases, and text 2 characterizes w _{2 with the} initial forms of words from phrases, while

words coincide, then the measure of proximity μ _{2 of} text 1 to text 2 is determined by expression (3)

Решение о принадлежности текстов к одному и тому же классу принимается на основе расчета выражения (4), при котором, если по результатам вычисления значение r менее заранее заданного порога Q (выбирают эмпирически или расчетным путем), то принимается решение, что оба текста принадлежат к одному и тому же классуThe decision on whether the texts belong to the same class is made on the basis of the calculation of expression (4), in which if, according to the results of the calculation, the value of r is less than a predetermined threshold Q (chosen empirically or by calculation), then the decision is made that both texts belong to the same class

Изобретение поясняется блок-схемой устройства для реализации способа (рис. 3).The invention is illustrated by a block diagram of a device for implementing the method (Fig. 3).

Устройство включает в себя блок 1 чтения текстов из заранее подготовленного корпуса текстов и передачи таких текстов по одному слову в блок морфологического анализа 2.The device includes a unit 1 for reading texts from a previously prepared body of texts and transferring such texts one word at a time to the morphological analysis unit 2.

На выходе блока 2 морфологического анализа в ответ на входное слово возникают начальная форма слова и его часть речи. Эти параметры передаются в блок отбора слов по его части речи 3. На выходе этого блока возникают начальные формы слов в случае, если они не являются частицами, союзами, междометиями, наречиями или местоимениями. Один из выходов блока 4 связан с хранилищем начальных форм слов 5 для сравнения поступающих на вход блока 4 начальных форм слов с начальными формами, содержащимися в хранилище 5. Если на входе блока 4 возникает слово, которое не содержится в хранилище 5, то блок 4 вносит такое новое слово в хранилище. По результатам обработки корпуса текстов в хранилище 5 содержатся все возможные начальные формы, содержащиеся в корпусе с получением числа N различных начальных форм. Такое число передают в блок 7, в котором происходит инициализация матрицы N*N, поступающей в хранилище матрицы частот встречаемости пар слов в предложении 8. Второй из выходов блока 4 связан с блоком 6 сравнения пар слов, поступивших из блока 4 с парами слов, содержащимися в хранилище 8, и суммирует в элемент матрицы, соответствующий поступившей паре слов, единицу. Результатом работы блока 6 является заполнение хранилища 8 частотами встречаемости пар слов в ходе обработки корпуса текстов. Блок 9 вычисляет значения матрицы совместной вероятности пар слов на основе матрицы встречаемости пар слов, содержащихся в хранилище 8. Поскольку корпус текстов содержит не все слова языка, то вероятно, что некоторые частоты встречаемости некоторых пар слов будут равны нулю. С другой стороны, велика вероятность встретить такую пару слов в каком-либо неизвестном тексте. В этом случае на основе такой статистической модели вероятность встретить новую последовательность слов будет равна нулю. Блок 10 использует сглаживание матрицы совместных вероятностей слов методом Каца. Элементы матрицы совместных вероятностей помещаются в хранилище 11, связанное с блоком 17. Особо следует отметить, что наличие описанной последовательности действия является следствием речевого разнообразия языка и является своего рода параллельным этапом при выполнении нижеописанной последовательности действий.At the output of block 2 of morphological analysis, in response to the input word, the initial form of the word and its part of speech appear. These parameters are transferred to the block for selecting words according to its part of speech 3. At the output of this block, initial forms of words arise if they are not particles, unions, interjections, adverbs or pronouns. One of the outputs of block 4 is connected with the repository of initial word forms 5 for comparing the initial forms of words received at the input of block 4 with the initial forms contained in the repository 5. If at the input of block 4 a word appears that is not contained in the repository 5, then block 4 contributes such a new word in the repository. According to the results of processing the text corpus in the repository 5, all possible initial forms are contained in the corpus with the receipt of the number N of various initial forms. Such a number is transmitted to block 7, in which the N * N matrix is initialized, which enters the repository of the frequency matrix of the occurrence of word pairs in sentence 8. The second of the outputs of block 4 is connected to block 6 comparing the pairs of words received from block 4 with the word pairs contained in in storage 8, and sums into a matrix element corresponding to the received pair of words, one. The result of the work of block 6 is filling the store with 8 frequencies of occurrence of word pairs during processing of the corpus of texts. Block 9 calculates the values of the matrix of joint probability of word pairs based on the occurrence matrix of word pairs contained in the repository 8. Since the text body does not contain all the words in the language, it is likely that some frequencies of occurrence of some word pairs will be zero. On the other hand, it is likely to meet such a couple of words in any unknown text. In this case, on the basis of such a statistical model, the probability of meeting a new sequence of words will be zero. Block 10 uses smoothing the matrix of joint probabilities of words by the Katz method. Elements of the matrix of joint probabilities are placed in the storage 11 associated with block 17. It should be noted that the presence of the described sequence of actions is a consequence of the speech diversity of the language and is a kind of parallel step when performing the sequence of actions described below.

Текстовые файлы, полученные в результате распознавания речи, поступают в блок 12 для прочтения. Слова из блока 12 поступают на вход морфологического анализатора 2, в котором определяются их начальные формы и части речи, и далее в блок 13 сегментации текста на фреймы заданного размера. Слова из выделенного блоком 13 фрейма поочередно передаются в блок 15 поиска слова в семантическом словаре, который был предварительно прочитан блоком 14. Блок 16 проводит сравнение семантических характеристик слов и определение их по парной согласованности. Далее, в блоке 17 находят значение максимума функционала (1) и последовательность слов (фразу) доставившую функционалу этот максимум. Из блока 17 найденную фразу со своими семантическими характеристиками передают в хранилище семантически согласованных фраз 18, связанное с блоком 19. В блоке 19 (компараторе) проводят попарное сравнение семантических характеристик накопленных в хранилище 18 фраз и каждой фразе ставят в соответствие подмножество фраз, в которых есть по крайней мере одна эквивалентная семантема. Затем происходит выбор подмножества максимальной мощности. Элементы этого подмножества (фразы) вместе со своими семантическими характеристиками передаются в блок 20 формирования семантического вектора текста.Text files obtained as a result of speech recognition are received in block 12 for reading. Words from block 12 are input to the morphological analyzer 2, in which their initial forms and parts of speech are determined, and then to block 13 of text segmentation into frames of a given size. Words from the frame selected by block 13 are alternately transmitted to the word search block 15 in the semantic dictionary, which was previously read by block 14. Block 16 compares the semantic characteristics of the words and determines them by pair matching. Next, in block 17, the maximum value of the functional (1) and the sequence of words (phrase) delivering this maximum to the functional are found. From block 17, the found phrase with its semantic characteristics is transferred to the repository of semantically consistent phrases 18, associated with block 19. In block 19 (comparator), a pairwise comparison of the semantic characteristics of the phrases stored in the repository 18 is performed and each phrase is associated with a subset of phrases in which at least one equivalent semanthem. Then a subset of the maximum power is selected. Elements of this subset (phrases), together with their semantic characteristics, are transferred to block 20 of the formation of the semantic text vector.

В блоке 20 формируется семантический вектор текста, который состоит из двух частей: а) множества различных семантем, которые встречались в подмножестве семантически согласованных фраз; б) различных начальных форм слов, входящих в подмножество семантически согласованных фраз. Семантический вектор текста помещается в хранилище 21 семантических векторов текстов. Когда в хранилище 21 поступает более одного семантического вектора, эти семантические вектора сравниваются в блоке 22 с помощью формул (2)÷(4). Если для любых сохраненных в хранилище семантических векторов параметр r больше порога Q, то вновь поступивший семантический вектор сохраняется и считается, что он определяет новую семантическую категорию. Если же в хранилищ t нашелся такой семантический вектор, для которого параметр r меньше порога, то считается, что связанная с ним семантическая категория уже существует, и он не сохраняется.In block 20, a semantic text vector is formed, which consists of two parts: a) the set of different semantems that were found in a subset of semantically agreed phrases; b) various initial forms of words included in a subset of semantically consistent phrases. The semantic text vector is placed in the repository of 21 semantic text vectors. When more than one semantic vector arrives in storage 21, these semantic vectors are compared in block 22 using formulas (2) ÷ (4). If for any semantic vectors stored in the repository the parameter r is greater than the threshold Q, then the newly arrived semantic vector is saved and it is considered that it defines a new semantic category. If, in the storages t, there is a semantic vector for which the parameter r is less than the threshold, then it is considered that the semantic category associated with it already exists, and it is not saved.

Таким образом, в хранилище 21 автоматически сохраняются только новые семантические категории поступающих текстов.Thus, only new semantic categories of incoming texts are automatically stored in the repository 21.

Claims

A method for classifying text obtained as a result of recognition of oral speech, including the initial creation of a semantic dictionary in the form of a repository of semantic characteristics of words and then conducting at least once the following sequence of actions:

- Recognize spoken language with text;

- in the text obtained as a result of the recognition of oral speech, each word is highlighted, each selected word is found to have many semantic characteristics in the semantic dictionary, on the basis of the identified many semantic characteristics, the semantic consistency of at least one sequence of words is determined to obtain a phrase, a lot of phrases are selected from the text by comparison their semantic characteristics and the selection according to the results of comparison of the dominant semantic characteristics, transform many into a plurality of key phrases, dominant containing semantic characterization, and form the first derived key phrases and their semantic class characteristics;

- compare subsequent key phrases and their semantic characteristics with at least one of the previous classes;

- classify at least one text based on a comparison of the following subsequent key phrases and their semantic characteristics.