RU2643438C2 - Detection of linguistic ambiguity in a text - Google Patents

Detection of linguistic ambiguity in a text Download PDF

Info

Publication number
RU2643438C2
RU2643438C2 RU2013157757A RU2013157757A RU2643438C2 RU 2643438 C2 RU2643438 C2 RU 2643438C2 RU 2013157757 A RU2013157757 A RU 2013157757A RU 2013157757 A RU2013157757 A RU 2013157757A RU 2643438 C2 RU2643438 C2 RU 2643438C2
Authority
RU
Russia
Prior art keywords
semantic
sentence
structures
text
syntactic
Prior art date
Application number
RU2013157757A
Other languages
Russian (ru)
Other versions
RU2013157757A (en
Inventor
Дмитрий Константинович Мещеряков
Владимир Павлович Селегей
Original Assignee
Общество с ограниченной ответственностью "Аби Продакшн"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью "Аби Продакшн" filed Critical Общество с ограниченной ответственностью "Аби Продакшн"
Priority to RU2013157757A priority Critical patent/RU2643438C2/en
Priority to US14/509,438 priority patent/US9984071B2/en
Publication of RU2013157757A publication Critical patent/RU2013157757A/en
Application granted granted Critical
Publication of RU2643438C2 publication Critical patent/RU2643438C2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation

Abstract

FIELD: text processing.
SUBSTANCE: invention relates to a natural language text processing, in particular to defining the meaning of sentences in the text. In the method for detecting linguistic ambiguity a sentence is analyzed in order to determine syntactic links between its generalized components. On the basis of the syntactic links and the lexical-morphological structure of the sentence a graph of generalized components is built, which is analyzed in order to identify a plurality of the sentence syntactic structures. All syntactic structures are assigned with an estimate of the probability that the structure is the true hypothesis of a complete syntactic structure. Semantic structures corresponding to the syntactic structures are built. First and the second semantic structures are selected, each of which has estimates not lower than the threshold value, herewith the first semantic structure is different from the second semantic structure. Basing on the analysis of differences between the two semantic structures the semantic ambiguity in the sentence is identified.
EFFECT: technical result is providing the ability to automatically find and identify ambiguous phrases or statements in a document, which can be interpreted in several possible ways.
20 cl, 28 dwg

Description

УРОВЕНЬ ТЕХНИКИBACKGROUND

[0001] Зачастую при составлении документации, в частности на двух и более языках, приходится сталкиваться с фразами, имеющими неоднозначность в толковании. В результате этого данные фразы могут быть неверно интерпретированы. Чтобы избежать неоднозначности в настоящее время проверка составленных документов зачастую полностью осуществляется вручную. Помимо этого существуют множество статей и руководств, которые содержат правила и рекомендации о том, как правильно писать и составлять документы, в том числе юридические документы и правовые акты, чтобы избежать неоднозначности в их толковании. Неверное толкование документации может иметь негативные последствия. Данные статьи и руководства обычно содержат формализованный набор правил, которым должен следовать специалист. Одним из лучших способов проверки на наличие неоднозначности в документе является независимая проверка документа несколькими людьми. Однако, в силу ряда причин, даже такая проверка может быть выполнена формально, халатно или непрофессионально. В частности, человек, проверяющий документ, может не обладать достаточными филологическими знаниями для того, чтобы выявить неоднозначные фразы и предложения. Задача окажется еще более трудоемкой для человека, не являющегося носителем языка, поскольку обнаружение неоднозначности требует глубокого знания лексики, синтаксических и морфологических правил, исключений и т.д. В то время как привлечение высококвалифицированных профессионалов - носителей языка, имеющих филологическое образование, может быть довольно затратным мероприятием, которое не всегда может быть доступно для компании или частного лица.[0001] Often when compiling documentation, in particular in two or more languages, one has to deal with phrases that are ambiguous in interpretation. As a result, these phrases may be misinterpreted. To avoid ambiguity at the present time, the verification of drafted documents is often completely carried out manually. In addition, there are many articles and manuals that contain rules and recommendations on how to write and draw up documents, including legal documents and legal acts, in order to avoid ambiguity in their interpretation. Misinterpretation of the documentation may have negative consequences. These articles and manuals usually contain a formalized set of rules that a specialist should follow. One of the best ways to check for ambiguity in a document is to independently check the document by several people. However, for a number of reasons, even such a check can be carried out formally, negligently or unprofessionally. In particular, the person checking the document may not have sufficient philological knowledge to identify ambiguous phrases and sentences. The task will prove even more time-consuming for a person who is not a native speaker, since the detection of ambiguity requires a deep knowledge of vocabulary, syntactic and morphological rules, exceptions, etc. At the same time, attracting highly qualified professionals - native speakers with a philological education can be quite a costly event, which may not always be available to a company or an individual.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION

[0002] В настоящем описании представлены системы, машиночитаемые носители и способы выявления языковой неоднозначности в тексте. Иллюстрируемый способ включает в себя анализ предложений из первого текста (с использованием одного или нескольких процессоров) с целью: определения синтаксических связей между обобщенными составляющими предложения; построения графа обобщенных составляющих предложения на основе синтаксических связей и лексико-морфологической структуры предложения; анализа графа с целью выявления множества синтаксических структур предложения; присвоения оценки всем синтаксическим структурам, где оценка отображает вероятность того, что данная синтаксическая структура является верной гипотезой, описывающей, полную синтаксическую структуру предложения. Далее способ включает определение семантических структур, соответствующих синтаксическим структурам, и выбор первой семантической структуры из семантических структур и второй семантической структуры из семантических структур, где первая и вторая семантические структуры имеют соответствующие синтаксические структуры, каждая из которых имеет оценки не ниже порогового значения, и где, первая семантическая структура отлична от второй семантической структуры. Далее способ дополнительно включает в себя обнаружение семантической неоднозначности предложения на основе анализа различий между двумя семантическими структурами.[0002] The present description provides systems, computer-readable media, and methods for detecting language ambiguity in a text. The illustrated method includes the analysis of sentences from the first text (using one or more processors) with the aim of: determining syntactic relationships between the generalized components of the sentence; constructing a graph of generalized components of the sentence based on syntactic relationships and the lexical-morphological structure of the sentence; graph analysis to identify the many syntactic structures of the sentence; assignment of the assessment to all syntactic structures, where the assessment reflects the probability that the given syntactic structure is a valid hypothesis describing the complete syntactic structure of the sentence. Further, the method includes determining semantic structures corresponding to syntactic structures, and selecting a first semantic structure from semantic structures and a second semantic structure from semantic structures, where the first and second semantic structures have corresponding syntactic structures, each of which has estimates not lower than a threshold value, and where , the first semantic structure is different from the second semantic structure. Further, the method further includes detecting the semantic ambiguity of the sentence based on an analysis of the differences between the two semantic structures.

[0003] Приведена иллюстративная система, которая включает в себя анализ предложений из первого текста, с использованием одного или нескольких процессоров, с целью: определения синтаксических связей между обобщенными составляющими предложения; построения графа обобщенных составляющих предложения на основе синтаксических связей и лексико-морфологической структуры предложения; анализа графа с целью выявления множества синтаксических структур предложения; присвоения оценки всем синтаксическим структурам где оценка отображает вероятность того, что синтаксическая структура является правильной гипотезой, описывающей полную синтаксическую структуру предложения. Один или более процессоров дополнительно выполнены с возможностью определения семантических структур, соответствующих синтаксическим структурам, и выбор первой семантической структуры из семантических структур и второй семантической структуры из семантических структур, где первая и вторая семантические структуры имеют соответствующие синтаксические структуры, каждая из которых имеет оценки не ниже порогового значения, и где, первая семантическая структура отлична от второй семантической структуры. Затем один или более процессоров дополнительно выполнены с возможностью обнаружения семантической неоднозначности предложения на основе анализа различий между первой и второй семантическими структурами.[0003] An illustrative system is provided that includes the analysis of sentences from the first text using one or more processors, with the goal of: determining syntactic relationships between the generalized components of a sentence; constructing a graph of generalized components of the sentence based on syntactic relationships and the lexical-morphological structure of the sentence; graph analysis to identify the many syntactic structures of the sentence; assignment of an assessment to all syntactic structures where the evaluation reflects the probability that the syntactic structure is the correct hypothesis describing the complete syntactic structure of the sentence. One or more processors is additionally configured to determine semantic structures corresponding to syntactic structures, and to select a first semantic structure from semantic structures and a second semantic structure from semantic structures, where the first and second semantic structures have corresponding syntactic structures, each of which has ratings not lower than threshold value, and where, the first semantic structure is different from the second semantic structure. Then, one or more processors are further configured to detect semantic ambiguity of a sentence based on an analysis of the differences between the first and second semantic structures.

[0004] На приведенном в описании энергонезависимом машиночитаемом носителе информации хранятся команды для анализа предложений из первого текста, с использованием одного или нескольких процессоров, с целью: определения синтаксических связей между обобщенными составляющими предложения; построения графа обобщенных составляющих предложения на основе синтаксических связей и лексико-морфологической структуры предложения; анализа графа с целью выявления множества синтаксических структур предложения; присвоения оценки всем синтаксическим структурам, где оценка отображает вероятность того, что синтаксическая структура является правильной гипотезой, описывающей полную синтаксическую структуру предложения. Далее применяются команды для определения семантических структур, соответствующих синтаксическим структурам, и выбора первой семантической структуры из семантических структур и второй семантической структуры из семантических структур, где первая и вторая семантические структуры имеют соответствующие синтаксические структуры, каждая из которых имеет оценки не ниже порогового значения, и где, первая семантическая структура отлична от второй семантической структуры. Затем используются команды по обнаружению семантической неоднозначности предложения на основе анализа различий между первой и второй семантическими структурами.[0004] Commands for analyzing sentences from the first text, using one or more processors, are stored on the non-volatile machine-readable storage medium described in the description, with the aim of: determining syntactic relationships between the generalized components of the sentence; constructing a graph of generalized components of the sentence based on syntactic relationships and the lexical-morphological structure of the sentence; graph analysis to identify the many syntactic structures of the sentence; assignment of the assessment to all syntactic structures, where the assessment reflects the probability that the syntactic structure is the correct hypothesis describing the complete syntactic structure of the sentence. The following commands are used to determine the semantic structures corresponding to syntactic structures, and to select the first semantic structure from semantic structures and the second semantic structure from semantic structures, where the first and second semantic structures have corresponding syntactic structures, each of which has ratings not lower than a threshold value, and where, the first semantic structure is different from the second semantic structure. Then, commands are used to detect the semantic ambiguity of the sentence based on the analysis of the differences between the first and second semantic structures.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS

[0005] Вышеуказанные и другие особенности настоящего раскрытия изобретения станут более очевидными из последующего описания и прилагаемой формулы изобретения, рассматриваемых совместно с прилагаемыми чертежами. Представленные иллюстрации показывают лишь несколько вариантов осуществления в соответствии с раскрытием изобретения и, следовательно, не должны рассматриваться как ограничивающие его область. Изобретение будет раскрыто с дополнительной конкретизацией и подробностями посредством прилагаемых чертежей.[0005] The above and other features of the present disclosure will become more apparent from the following description and appended claims, taken in conjunction with the accompanying drawings. The presented illustrations show only a few embodiments in accordance with the disclosure of the invention and, therefore, should not be construed as limiting its scope. The invention will be disclosed with further specification and details by means of the accompanying drawings.

[0006] Фиг. 1 иллюстрирует последовательность шагов выполнения глубинного анализа в соответствие с примером осуществления в описании.[0006] FIG. 1 illustrates a sequence of steps for performing in-depth analysis in accordance with an embodiment in the description.

[0007] Фиг. 2 иллюстрирует последовательность структур, строящихся в процессе анализа предложения в соответствие с примером осуществления в описании.[0007] FIG. 2 illustrates a sequence of structures constructed in the process of analyzing a proposal in accordance with an embodiment in the description.

[0008] Фиг. 2А иллюстрирует пример лексико-морфологической структуры для предложения на английском языке "The child is smart, he’ll do well in life", в соответствии с примером осуществления в описании.[0008] FIG. 2A illustrates an example of a lexical-morphological structure for the English sentence "The child is smart, he’ll do well in life", in accordance with an embodiment in the description.

[0009] Фиг. 3 иллюстрирует блок-схему в соответствии с примером осуществления в описании.[0009] FIG. 3 illustrates a block diagram in accordance with an embodiment in the description.

[0010] Фиг. 4 иллюстрирует пример блок-схемы семантических описаний в соответствии с примером осуществления в описании.[0010] FIG. 4 illustrates an example block diagram of semantic descriptions in accordance with an embodiment in the description.

[0011] Фиг. 5 иллюстрирует блок-схему грубого синтаксического анализа в соответствии с примером осуществления в описании.[0011] FIG. 5 illustrates a block diagram of rough parsing in accordance with an embodiment in the description.

[0012] Фиг. 6 иллюстрирует пример графа обобщенных составляющих для предложения "This child is smart, he’ll do well in life", в соответствии с примером осуществления в описании.[0012] FIG. 6 illustrates an example of a graph of generalized components for the sentence "This child is smart, he’ll do well in life", in accordance with an example embodiment in the description.

[0013] Фиг. 7 иллюстрирует блок-схему точного синтаксического анализа в соответствии с примером осуществления в описании.[0013] FIG. 7 illustrates a block diagram of accurate parsing in accordance with an embodiment in the description.

[0014] Фиг. 8 иллюстрирует блок-схему синтаксического дерева в соответствии с примером осуществления в описании.[0014] FIG. 8 illustrates a block diagram of a syntax tree in accordance with an embodiment in the description.

[0015] Фиг. 9А, 9Б, 9В и 9Г иллюстрирует примеры синтаксических и семантических структур для предложения "The police shot rioters with guns" в соответствии с примером осуществления в описании.[0015] FIG. 9A, 9B, 9B and 9D illustrate examples of syntactic and semantic structures for the sentence “The police shot rioters with guns” in accordance with an embodiment in the description.

[0016] Фиг. 10 иллюстрирует блок-схему языкового описания в соответствии с примером осуществления в описании.[0016] FIG. 10 illustrates a block diagram of a language description in accordance with an embodiment in the description.

[0017] Фиг. 11 иллюстрирует блок-схему морфологического описания в соответствии с примером осуществления в описании.[0017] FIG. 11 illustrates a block diagram of a morphological description in accordance with an embodiment in the description.

[0018] Фиг. 12 иллюстрируетблок-схему семантического описания в соответствии с примером осуществления в описании.[0018] FIG. 12 illustrates a block diagram of a semantic description in accordance with an embodiment in the description.

[0019] Фиг. 13 иллюстрируетблок-схему лексического описания, в соответствии с примером осуществления в описании.[0019] FIG. 13 illustrates a block diagram of a lexical description, in accordance with an embodiment in the description.

[0020] Фиг. 14 иллюстрирует блок-схему последовательности шагов анализа документа на наличие в нем предложений, имеющих несколько толкований в соответствии с примером осуществления в описании.[0020] FIG. 14 illustrates a flowchart of an analysis of a document for the presence of sentences having several interpretations in accordance with an embodiment in the description.

[0021] Фиг. 15А, 15Б, 15В и 15Г иллюстрируют примеры (схемы)синтаксического дерева, полученного в результате точного синтаксического анализа английского словосочетания "The Russian history student" в соответствии с примером осуществления в описании.[0021] FIG. 15A, 15B, 15B, and 15G illustrate examples (schemes) of a syntax tree obtained as a result of accurate parsing of the English phrase "The Russian history student" in accordance with an embodiment in the description.

[0022] Фиг. 16 иллюстрирует блок-схему для синтеза перевода с использованием универсальной семантической в соответствии с примером осуществления в описании.[0022] FIG. 16 illustrates a flowchart for synthesizing translation using a universal semantic in accordance with an embodiment in the description.

[0023] Фиг. 17 иллюстрирует блок-схему последовательности шагов анализа параллельных документов на наличие в них предложений, имеющих несколько толкований в соответствии с примером осуществления в описании.[0023] FIG. 17 illustrates a flowchart of a sequence of steps for analyzing parallel documents for the presence of sentences having several interpretations in accordance with an embodiment in the description.

[0024] Фиг. 18А и 18Б иллюстрируют примеры семантических деревьев, полученных в результате анализа предложения на английском "Chickens are ready for dinner" и предложения на русском "Куры готовы поесть" в соответствии с примером осуществления в описании.[0024] FIG. 18A and 18B illustrate examples of semantic trees obtained by analyzing a sentence in English “Chickens are ready for dinner” and a sentence in Russian “Chickens are ready to eat” in accordance with an embodiment in the description.

[0025] Фиг. 19 иллюстрирует пример семантического дерева для предложения на русском языке "ПОЧВУ НУЖНО ПОКРЫТЬ УДОБРЕНИЕМ, ПРЕЖДЕ ЧЕМ ОНА ЗАМЕРЗНЕТ" в соответствии с примером осуществления в описании.[0025] FIG. 19 illustrates an example of a semantic tree for a sentence in Russian “SOIL SHOULD BE COVERED WITH FERTILIZER BEFORE IT IS FREEZING” in accordance with an embodiment in the description.

[0026] Фиг. 20 иллюстрирует схему аппаратного обеспечения в соответствии с примером осуществления в описании.[0026] FIG. 20 illustrates a hardware diagram in accordance with an embodiment in the description.

[0027] В представленном ниже подробном описании даются ссылки на сопровождающие чертежи. Одинаковые символы на чертежах соответствуют одинаковым компонентам, если не указано иное. Примеры применения, приведенные в подробном описании, чертежах и формулах, не являются единственными возможными. Изобретение может быть применено или изменено другими, не описанными ниже способами, без нарушения области или его сущности. Различные варианты, приведенные в описании изобретения и проиллюстрированные чертежами, могут быть расположены, заменены и сгруппированы в широком выборе различных конфигураций, которые подробно рассмотрены в настоящем описании.[0027] In the following detailed description, reference is made to the accompanying drawings. The same symbols in the drawings correspond to the same components, unless otherwise indicated. The application examples given in the detailed description, drawings and formulas are not the only possible ones. The invention may be applied or modified by other methods not described below, without violating the field or its essence. The various options described in the description of the invention and illustrated by the drawings can be arranged, replaced and grouped in a wide selection of different configurations, which are described in detail in the present description.

ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯDESCRIPTION OF PREFERRED EMBODIMENTS

[0028] Применение различных описанных способов реализации, связанных с определением смысла предложений в тексте, в том числе, на основе использования семантической иерархии.[0028] The application of various described implementation methods related to determining the meaning of sentences in the text, including through the use of semantic hierarchy.

[0029] Настоящее изобретение включает в себя системы, машиночитаемые носители и способы обнаружения неоднозначности предложений в тексте. Согласно представленному в настоящем описании способу, пользователь может получить результаты автоматической проверки, Например, результаты данной проверки могут быть представлены в виде визуальных и иных сигналов, указывающих на неоднозначные предложения, для которых построено несколько семантических структур. Пользователь имеет возможность взглянуть на обнаруженную неоднозначность и различные способы интерпретации предложения, имеющего неоднозначность. Помимо этого пользователь может детально рассмотреть семантические структуры, построенные для предложения, содержащего неоднозначность, и вручную проверить результаты работы системы согласно представленному описанию.[0029] The present invention includes systems, computer-readable media, and methods for detecting ambiguity in sentences in the text. According to the method presented in the present description, the user can obtain the results of an automatic check. For example, the results of this check can be presented in the form of visual and other signals indicating ambiguous sentences for which several semantic structures are constructed. The user has the opportunity to look at the discovered ambiguity and various ways of interpreting a sentence that has ambiguity. In addition, the user can examine in detail the semantic structures built for the sentence containing ambiguity, and manually check the results of the system according to the description provided.

[0030] Например, по причине наличия неоднозначности в тексте может возникнуть такая ситуация, что условия в уже подписанном юридическом соглашении могут толковаться участниками соглашения по-разному. Система анализа естественных языков, входящая в настоящее изобретение, может автоматически находить и выделять в документе неоднозначные фразы или утверждения, которые могут трактоваться двумя или более возможными способами. Таким образом, изобретение позволяет устранить риски, связанные с человеческим фактором, которые могут возникнуть при ручной проверке соглашений юристами обеих сторон. Более того, данная система может быть использована в машинном переводе (пользователю могут быть представлены несколько вариантов перевода для предложений, имеющих различные толкования) или для проверки правильности результатов машинного перевода. Более того, данное изобретение также может быть использовано для проверки параллельных текстов (корпусов текстов) на точность их выравнивания. Такая функция особенно полезна при проверке ручного выравнивания параллельных текстов из внешних источников, переводческих баз данных и пр.[0030] For example, because of the ambiguity in the text, a situation may arise that the conditions in an already signed legal agreement may be interpreted by the parties to the agreement differently. The natural language analysis system of the present invention can automatically find and highlight ambiguous phrases or statements in a document that can be interpreted in two or more possible ways. Thus, the invention eliminates the risks associated with the human factor that may arise during the manual verification of agreements by lawyers of both parties. Moreover, this system can be used in machine translation (the user may be presented with several translation options for sentences with different interpretations) or to verify the correctness of the results of machine translation. Moreover, this invention can also be used to check parallel texts (text bodies) for the accuracy of their alignment. Such a function is especially useful when checking the manual alignment of parallel texts from external sources, translation databases, etc.

[0031] Настоящее изобретение предназначено для выявления и анализа семантической неоднозначности в текстах (корпусе текстов). В основе изобретения лежит принцип синтаксического анализа на базе исчерпывающих лингвистических описаний, описанных в патенте США 8078450. Так как подобный анализ основан на использовании независимых от языка смысловых единиц, данное изобретение также не зависит от языка и позволяет работать с одним или несколькими естественными языками.[0031] The present invention is intended to identify and analyze semantic ambiguity in texts (body of texts). The invention is based on the principle of parsing based on the exhaustive linguistic descriptions described in US patent 8078450. Since such an analysis is based on the use of language-independent semantic units, this invention also does not depend on the language and allows you to work with one or more natural languages.

[0032] В патенте США 8078450 описан способ, включающий глубинный синтаксический и семантический анализ текстов на естественном языке, основанный на исчерпывающих лингвистических описаниях. Данная технология может быть использована для выявления смысловой неоднозначности текста. Способ использует широкий спектр лингвистических описаний и семантических механизмов, как универсальных, так и относящихся к конкретному языку, что позволяет отразить многообразие реального языка, не прибегая к упрощениям и искусственным ограничениям, а также без угрозы неуправляемого роста сложности. Кроме того, указанные способы анализа основаны на принципах целостного и целенаправленного распознавания. Это означает, что гипотезы о структуре части предложения верифицируются в рамках проверки гипотезы о структуре всего предложения, что позволяет избежать анализа множества аномалий и вариаций.US Pat. This technology can be used to identify the semantic ambiguity of the text. The method uses a wide range of linguistic descriptions and semantic mechanisms, both universal and related to a specific language, which allows you to reflect the diversity of the real language, without resorting to simplifications and artificial restrictions, as well as without the threat of uncontrolled growth of complexity. In addition, these analysis methods are based on the principles of holistic and targeted recognition. This means that hypotheses about the structure of a part of a sentence are verified as part of a test of the hypothesis about the structure of the whole sentence, which avoids the analysis of many anomalies and variations.

[0033] Глубинный анализ включает в себя лексико-морфологический, синтаксический и семантический анализ предложений в текстовом корпусе, в результате которых строятся независимые от языка семантические структуры, в которых каждому слову текста сопоставляется соответствующий семантический класс. Фиг. 1 иллюстрирует общую схему способа глубинного анализа. Текст (105) подвергается исчерпывающему семантико-синтаксическому анализу (106) с использованием лингвистических описаний исходного языка и универсальных семантических описаний, что позволяет анализировать не только поверхностную синтаксическую структуру, но и глубинную семантическую структуру, выражающую смысл высказывания, содержащегося в каждом предложении, а также связи между предложениями или фрагментами текста. Лингвистические описания могут включать лексические (101), морфологические (102), синтаксические (103) и семантические описания (104). Анализ (106) представляет собой синтаксический анализ, реализованный в виде двухэтапного алгоритма (грубого синтаксического анализа и точного синтаксического анализа) с использованием лингвистических моделей и информации различных уровней для вычисления вероятностей и генерации множества синтаксических структур. Фиг. 2 иллюстрирует последовательность структур, строящихся в процессе анализа предложения. Фиг. 2 и Фиг. 2А описаны более подробно ниже.[0033] An in-depth analysis includes lexical, morphological, syntactic, and semantic analysis of sentences in a text corpus, as a result of which language-independent semantic structures are constructed in which each word of the text is associated with a corresponding semantic class. FIG. 1 illustrates a general outline of a depth analysis method. The text (105) is subjected to an exhaustive semantic-syntactic analysis (106) using linguistic descriptions of the source language and universal semantic descriptions, which allows us to analyze not only the surface syntactic structure, but also the deep semantic structure expressing the meaning of the statement contained in each sentence, as well as links between sentences or fragments of text. Linguistic descriptions may include lexical (101), morphological (102), syntactic (103), and semantic descriptions (104). Analysis (106) is a syntactic analysis implemented in the form of a two-stage algorithm (rough parsing and accurate parsing) using linguistic models and information of various levels to calculate probabilities and generate a variety of syntactic structures. FIG. 2 illustrates the sequence of structures built in the process of analyzing a proposal. FIG. 2 and FIG. 2A are described in more detail below.

[0034] Грубый синтаксический анализ[0034] Rough Parsing

[0035] Фиг. 3 иллюстрирует блок-схему этапа, обозначенного под номером 106 на Фиг. 1. На этом этапе применяется грубый синтаксический анализатор (322) для выявления всех потенциально возможных синтаксических связей в предложении. В результате создается граф обобщенных составляющих (360) на основе проведенного анализатором (312) лексико-морфологического анализа (120) лексико-морфологической структуры (350) с использованием поверхностных моделей (410), глубинных моделей (512) и лексико-семантического словаря (314). Граф обобщенных составляющих (360) - это ациклический граф, вершины которого представляют собой обобщенные (включающие все возможные варианты) лексические значения слов предложения, а дуги - поверхностные (синтаксические) позиции, выражающие разные типы отношений между соединяемыми лексическими значениями. Для каждого элемента лексико-морфологической структуры предложения, который может представлять собой ядро составляющих, применяются все возможные поверхностные синтаксические модели. Далее все возможные составляющие включаются в граф обобщенных составляющих (232). В результате анализа всех возможных синтаксических описаний и структур для исходного предложения (302) на основе множества обобщенных составляющих строится граф обобщенных составляющих (360). Граф обобщенных составляющих (360) отражает все потенциальные связи между словами исходного предложения (302) с помощью поверхностной модели. Поскольку число вариантов синтаксического разбора может быть велико, граф обобщенных составляющих (360) избыточен, т.е. может содержать множество вариантов - как для выбора лексического значения (вершины), так и для поверхностных позиций (дуги графа).[0035] FIG. 3 illustrates a block diagram of the step indicated by 106 in FIG. 1. At this point, a crude parser (322) is used to identify all potential syntactic relationships in the sentence. As a result, a graph of generalized components (360) is created based on the lexical-morphological analysis (120) of the lexical-morphological structure (350) performed by the analyzer (312) using surface models (410), depth models (512) and a lexical-semantic dictionary (314) ) The graph of generalized components (360) is an acyclic graph whose vertices are generalized (including all possible variants) lexical meanings of the sentence words, and arcs are superficial (syntactic) positions expressing different types of relations between connected lexical meanings. For each element of the lexico-morphological structure of the sentence, which may be the core of the components, all possible surface syntactic models are applied. Further, all possible components are included in the graph of generalized components (232). As a result of the analysis of all possible syntactic descriptions and structures for the initial sentence (302), based on the set of generalized components, a graph of generalized components (360) is constructed. The graph of generalized components (360) reflects all potential connections between the words of the original sentence (302) using the surface model. Since the number of parsing options can be large, the graph of generalized components (360) is redundant, i.e. can contain many options - both for choosing the lexical value (vertex), and for surface positions (graph arcs).

[0036] Для каждой пары "лексическое значение-грамматическое значение" инициализируется ее поверхностная модель и прикрепляются другие составляющие в поверхностных позициях (415) синтформы (412) ее поверхностной модели (410) к правым и левым соседним составляющим. Синтаксические описания проиллюстрированы на Фиг. 4. Если подходящая синтаксическая форма найдена в поверхностной модели соответствующего лексического значения (410), выбранное лексическое значение может служить ядром новой составляющей.[0036] For each pair of “lexical meaning-grammatical meaning”, its surface model is initialized and other components in the surface positions (415) of the synthform (412) of its surface model (410) are attached to the right and left neighboring components. The syntax descriptions are illustrated in FIG. 4. If a suitable syntactic form is found in the surface model of the corresponding lexical meaning (410), the selected lexical meaning can serve as the core of a new component.

[0037] Согласно примеру осуществлении, граф обобщенных составляющих (360) вначале строится в виде дерева (другие структуры также могут быть использованы) или другой структуры, начиная от листьев к корням (снизу вверх). Построение дополнительных составляющих может происходить путем снизу вверх путем прикрепления дочерних составляющих к родительским составляющим посредством заполнения поверхностных позиций (415) родительских составляющих для того, чтобы охватить все начальные лексические единицы исходного предложения (302).[0037] According to an embodiment, the graph of generalized components (360) is first constructed in the form of a tree (other structures can also be used) or another structure, starting from leaves to roots (bottom to top). The construction of additional components may occur from the bottom up by attaching the child components to the parent components by filling in the surface positions (415) of the parent components in order to cover all the initial lexical units of the original sentence (302).

[0038] Согласно примеру осуществления в описании, корень дерева является главной частью, представляющей специальную составляющую, соответствующую различным типам максимальных единиц текстового анализа (завершенным предложениям, нумерации, заглавиям, и т.д.). Ядром главной части является обычно предикат (сказуемое). Фактически, дерево превращается в граф, поскольку составляющие более низких уровней (листья) могут быть включены в различные составляющие верхнего уровня (корни).[0038] According to an embodiment in the description, the root of the tree is the main part representing a special component corresponding to the various types of maximum units of text analysis (completed sentences, numbering, titles, etc.). The core of the main part is usually a predicate (predicate). In fact, the tree turns into a graph, since the components of lower levels (leaves) can be included in various components of the upper level (roots).

[0039] Некоторые составляющие, построенные для одних и тех же составляющих лексико-морфологической структуры, могут быть впоследствии обобщены для создания обобщенных составляющих. Составляющие обобщаются на основе лексических (1312, Фиг. 13) и грамматических значений (414), например, на основе частей речи и их связей. Поскольку в предложении существует множество различных синтаксических связей, и одно и то же слово может быть включено в несколько составляющих, составляющие обобщаются при помощи границ (связей). В результате грубого синтаксического анализа (130) строится граф обобщенных составляющих (360), который описывает все предложение целиком.[0039] Some of the components built for the same components of the lexical-morphological structure can be subsequently generalized to create generalized components. The components are summarized on the basis of lexical (1312, Fig. 13) and grammatical meanings (414), for example, on the basis of parts of speech and their connections. Since there are many different syntactic links in the sentence, and the same word can be included in several components, the components are generalized using borders (links). As a result of rough syntactic analysis (130), a graph of generalized components (360) is constructed that describes the whole sentence.

[0040] Фиг. 5 иллюстрирует процесс грубого синтаксического анализа (130) в соответствии с одной или несколькими реализациями изобретения. Грубый синтаксический анализ (130) обычно включает предварительный сбор составляющих (510), построение обобщенных составляющих (520), фильтрацию (170), построение моделей обобщенных составляющих (540), обработку согласований (550), восстановление эллипсисов (560) и т.д.[0040] FIG. 5 illustrates a rough parsing process (130) in accordance with one or more implementations of the invention. Rough parsing (130) usually involves pre-collecting components (510), building generalized components (520), filtering (170), building models of generalized components (540), matching processing (550), restoring ellipses (560), etc. .

[0041] Согласно примеру осуществления в описании, предварительный сбор составляющих (510) на этапе грубого синтаксического анализа (130) выполняется на основе лексико-морфологической структуры (350) анализируемого предложения, включая определенные группы слов, слова в скобках, кавычках, и т.д. Только одно слово в группе (ядро составляющей) может присоединять составляющую или быть присоединенным к составляющей за пределами группы. Предварительный сбор (510) выполняется в начале грубого синтаксического анализа (130) перед построением обобщенных составляющих (520) и моделей обобщенных составляющих (530) для того, чтобы охватить все связи во всем предложении. В процессе грубого синтаксического анализа (130) обрабатывается огромное число составляющих, которые могут быть построены, а также синтаксических связей между ними. Некоторые из поверхностных моделей (410) выбираются, чтобы отсортировать в процессе фильтрации (570) до и после построения составляющих для того, чтобы значительно уменьшить число составляющих, которые необходимо проанализировать. Поэтому на начальном этапе грубого синтаксического анализа (130) используются наиболее подходящие поверхностные модели и синтформы, подобранные на основе априорных оценок. К грубым априорным оценкам относятся оценки лексических значений, оценки заполнителей, оценки семантических описаний и пр. Фильтрация (570) на этапе грубого синтаксического анализа (130) представляет собой фильтрацию множества синтаксических форм (412), которая выполняется до и во время построения обобщенных составляющих (520). Синтформы (412) и поверхностные позиции (415) фильтруются заранее, а составляющие - после того, как они уже построены. Процесс фильтрации (570) позволяет существенно уменьшить число рассматриваемых вариантов разбора. Следует учесть, что исключение маловероятных вариантов значений, поверхностных моделей и синтформ из последующего анализа может привести к потере маловероятного, но, тем не менее, возможного смысла.[0041] According to an embodiment in the description, preliminary collection of components (510) at the stage of rough syntax analysis (130) is performed based on the lexical-morphological structure (350) of the analyzed sentence, including certain groups of words, words in brackets, quotation marks, etc. d. Only one word in a group (core of a component) can join a component or be attached to a component outside the group. A preliminary collection (510) is performed at the beginning of a rough syntactic analysis (130) before the construction of generalized components (520) and models of generalized components (530) in order to cover all the links in the whole sentence. In the process of rough syntax analysis (130), a huge number of components that can be built, as well as syntactic links between them, are processed. Some of the surface models (410) are selected to be sorted during the filtering process (570) before and after the construction of the components in order to significantly reduce the number of components that need to be analyzed. Therefore, at the initial stage of rough syntactic analysis (130), the most suitable surface models and synths are used, selected on the basis of a priori estimates. Coarse a priori estimates include lexical meanings, placeholder ratings, semantic description ratings, etc. Filtration (570) at the stage of rough syntactic analysis (130) is a filtration of a set of syntactic forms (412), which is performed before and during the construction of generalized components ( 520). Syntforms (412) and surface positions (415) are filtered in advance, and the components after they are already built. The filtering process (570) can significantly reduce the number of parsing options considered. It should be noted that the exclusion of unlikely variants of values, surface models and syntforms from the subsequent analysis can lead to the loss of an unlikely, but nonetheless possible meaning.

[0042] Когда все возможные составляющие построены, выполняется процедура обобщения для построения обобщенных составляющих (520). Все возможные омонимы и значения для элементов исходного предложения, которые могут быть представлены одной и той же частью речи, собираются и обобщаются. Все возможные составляющие, построенные таким образом, группируются в обобщенные составляющие (522).[0042] When all possible components are built, a generalization procedure is performed to build the generalized components (520). All possible homonyms and meanings for the elements of the original sentence, which can be represented by the same part of speech, are collected and generalized. All possible components constructed in this way are grouped into generalized components (522).

[0043] Согласно примеру осуществления, обобщенная составляющая (522) описывает все составляющие со всеми возможными связями в исходном предложении, которое имеет словарные формы в качестве основных составляющих, и различные лексические значения этой формы слова.. Далее выполняется построение моделей обобщенных составляющих (530) и строится множество моделей (532) обобщенных составляющих, имеющих обобщенные модели всех обобщенных лексем. Модели обобщенных составляющих лексем содержат обобщенную глубинную и обобщенную поверхностную модель. Обобщенная глубинная модель лексем включает список всех глубинных позиций, которые имеют одинаковое лексическое значение для каждой лексемы, а также описания всех требований для заполнителей глубинных позиций. Обобщенная поверхностная модель содержит информацию о синтформах (412), в которых может содержаться лексема, поверхностных позициях (415), диатезах (417) (связях поверхностных (415) и глубинных позиций (1214)), а также описание линейного порядка (416).[0043] According to an embodiment, the generalized component (522) describes all components with all possible connections in the original sentence, which has dictionary forms as the main components, and various lexical meanings of this form of the word .. Next, models of the generalized components are constructed (530) and constructs many models (532) of generalized components that have generalized models of all generalized tokens. Models of generalized components of lexemes contain a generalized deep and generalized surface model. The generalized deep-seated token model includes a list of all deep-seated positions that have the same lexical meaning for each lexeme, as well as descriptions of all requirements for depth-placeholders. The generalized surface model contains information on synthforms (412), which can contain a lexeme, surface positions (415), diathesis (417) (connections of surface (415) and deep positions (1214)), as well as a description of the linear order (416).

[0044] Диатеза (417) строится на этапе грубого синтаксического анализа (130). Каждая диатеза представляет собой соответствие между обобщенными поверхностными и обобщенными глубинными моделями. Список всех возможных семантических классов для всех диатез лексемы (417) рассчитывается для каждой поверхностной позиции (415).[0044] Diathesis (417) is constructed at the stage of crude parsing (130). Each diathesis represents a correspondence between generalized surface and generalized deep models. A list of all possible semantic classes for all diathesis lexemes (417) is calculated for each surface position (415).

[0045] На Фиг. 5 показано, как информация из синфторм (412) синтаксического (102) и семантического описания (104) используется для построения моделей обобщенных составляющих (532). Например, зависимые составляющие могут прикрепляться к лексическим значениям (1312). В данном случае грубый синтаксический анализ (130) необходим для того, чтобы установить, может ли возможная составляющая или зависимая составляющая стать заполнителем соответствующей глубинной позиции семантического описания (104) для основной составляющей. Такой сравнительный анализ позволяет отсечь на ранней стадии неверные синтаксические связи.[0045] FIG. Figure 5 shows how information from the synth (412) syntactic (102) and semantic descriptions (104) is used to build models of generalized components (532). For example, dependent components can be attached to lexical meanings (1312). In this case, crude syntax analysis (130) is necessary in order to establish whether a possible component or dependent component can become a placeholder for the corresponding deep position of the semantic description (104) for the main component. Such a comparative analysis allows you to cut off early syntactic links.

[0046] Далее выполняется построение графа обобщенных составляющих (540). Граф обобщенных составляющих (360) описывает все возможные синтаксические структуры предложения путем сбора и связи обобщенных составляющих (522) друг с другом.[0046] Next, the construction of the graph of generalized components (540) is performed. The graph of generalized components (360) describes all possible syntactic structures of the sentence by collecting and linking the generalized components (522) with each other.

[0047] Фиг. 6 демонстрирует пример графа обобщенных составляющих (600) для предложения "This child is smart, he’ll do well in life". Составляющие представлены в виде прямоугольников. Ядром каждой из составляющих является лексема. Морфологическая парадигма ядра составляющей (как правило, это часть речи) выражена граммемами частей речи. На схеме парадигма расположена под лексемами и обозначена угловыми скобками. Морфологические парадигмы (части описания слова) могут изменяться. Морфологическое описание содержит всю информацию о словоизменении одной или нескольких частей речи. Например, слово "do" может быть одной из двух частей речи: глаголом (<Verb>) или существительным (<Noun>). Такие случаи обозначаются обобщенной морфологической парадигмой <Noun&Pronoun>. На графе показаны две составляющие для слова "do" (600).[0047] FIG. 6 shows an example of a graph of generalized components (600) for the sentence "This child is smart, he’ll do well in life". Components are presented in the form of rectangles. The core of each component is a token. The morphological paradigm of the core component (as a rule, this is part of speech) is expressed by grammes of parts of speech. In the diagram, the paradigm is located under the tokens and is indicated by angle brackets. Morphological paradigms (parts of the word description) may vary. The morphological description contains all the information about the inflection of one or more parts of speech. For example, the word "do" can be one of two parts of speech: a verb (<Verb>) or a noun (<Noun>). Such cases are indicated by the generalized morphological paradigm <Noun & Pronoun>. The graph shows two components for the word "do" (600).

Помимо этого слово "well" на графе также представлено двумя составляющими. Поскольку в исходном предложении использовано сокращение "he’ll", в графе представлены два возможных значения: "will" и "shall". Задача точного синтаксического анализа состоит в выборе из всех возможных составляющих лишь тех, которые будут образовывать синтаксическую структуру исходного предложения.In addition, the word "well" in the graph is also represented by two components. Since the abbreviation “he’ll” was used in the original sentence, the column contains two possible meanings: “will” and “shall”. The task of accurate parsing is to select from all possible components only those that will form the syntactic structure of the original sentence.

[0048] Связи в графе (600) представляют собой заполненные поверхностные позиции ядра составляющей. Название позиции показано на стрелке графа. Составляющая сформирована ядром лексемы, которая может иметь исходящие именованные стрелки, которые обозначают поверхностные позиции (415) заполненные дочерними составляющими совместно с дочерними составляющими как таковыми. Входящая стрелка обозначает прикрепление этой составляющей к поверхностной позиции другой составляющей. Граф (600) имеет множество стрелок (дуг) все возможные связи, которые могут быть установлены между составляющими предложения. Среди них существуют связи, которые будут в дальнейшем отвергнуты. Значение упомянутых ранее грубых способов оценкис Сохраняется для каждой стрелки, обозначающей заполненную глубинную позицию. Как правило, только поверхностные позиции и связи с высоким значением рейтинговых оценок в первую очередь будут выбраны на следующем этапе синтаксического анализа.[0048] The bonds in column (600) represent the filled surface positions of the nucleus of the component. The position name is shown on the arrow of the graph. The component is formed by the core of the token, which may have outgoing named arrows that indicate surface positions (415) filled with daughter components together with daughter components as such. An incoming arrow indicates the attachment of this component to the surface position of another component. The graph (600) has many arrows (arcs) all the possible connections that can be established between the components of the proposal. Among them, there are connections that will be further rejected. Meaning of the rough methods of estimation mentioned above c Saved for each arrow indicating a filled depth position. As a rule, only superficial positions and relationships with a high rating score will be selected in the first place at the next step of the parsing.

[0049] Возможно, что несколько ветвей могут соединять одни и те же пары составляющих. Это означает, что для этой пары составляющих существует несколько подходящих поверхностных моделей, и несколько поверхностных позиций родительских составляющих могут быть независимо заполнены этими дочерними составляющими. Например, три поверхностных позиции - Idiomatic_Adverbial (610), Modifier Adverbial (620) и AdjunctTime (630) родительской составляющей "do<Verb>" (650) могут быть независимо заполнены дочерней составляющей "well<Verb>" (640) в соответствии с поверхностной моделью составляющей "do<Verb>". Таким образом, "do<Verb>" (650) + "well<Verb>" образуют новую составляющую с ядром "do<Verb>", которая соединена с другой родительской составляющей - например, с #NormalSentence<Clause> (660) в поверхностной позиции Verb (670) и с "child<Noun&Pronoun>" (680) в поверхностной позиции RelativClause_DirectFinite (690). Помеченный элемент #NormalSentence<Clause> (660) - это "корень", который относится ко всему предложению.[0049] It is possible that several branches may connect the same pairs of constituents. This means that for this pair of components there are several suitable surface models, and several surface positions of the parent components can be independently filled with these child components. For example, three surface positions - Idiomatic_Adverbial (610), Modifier Adverbial (620) and AdjunctTime (630) of the parent component "do <Verb>" (650) can be independently populated by the child component "well <Verb>" (640) in accordance with surface model of the "do <Verb>" component. Thus, "do <Verb>" (650) + "well <Verb>" form a new component with the core "do <Verb>", which is connected to another parent component - for example, #NormalSentence <Clause> (660) in surface position Verb (670) and with "child <Noun & Pronoun>" (680) in the surface position RelativClause_DirectFinite (690). The labeled element #NormalSentence <Clause> (660) is the "root" that applies to the entire sentence.

[0050] На Фиг. 5 показано, как обработка согласований (550) также выполняется на графе обобщенных составляющих (360). Согласование - это явление языка, которое представлено в предложениях с числительными и (или) соединительными союзами, такими как [и], [или], [но], и т.д. Простой пример предложения с координацией - "John, Mary and Bill come home". В этом случае только одна из дочерних составляющих прикрепляется к поверхностной позиции родительской составляющей на этапе построения графа обобщенных составляющих (540). Если составляющая, которая может быть родительской, имеет поверхностную позицию, заполненную для согласованной составляющей, для всех согласованных составляющих делается попытка прикрепления дочерних составляющих к родительской, независимо от наличия связи между согласованными составляющими. На этапе обработки согласования (550) определяется линейный порядок, а также возможность множественного заполнения поверхностных позиций. Если возможно, создается и прикрепляется предварительная форма, которая относится к общей дочерней составляющей. На Фиг. 5 показано, как обработчик сгласования (582) или другие алгоритмы могут быть адаптированы для выполнения обработки согласования (550) с использованием описаний (454) при построении графа обобщенных составляющих (540). Алгоритм диспетчера (590) может быть настроен для построения моделей обобщенных составляющих (540).[0050] In FIG. Figure 5 shows how matching processing (550) is also performed on the graph of generalized components (360). Matching is a language phenomenon that is presented in sentences with numeral and (or) connective unions, such as [and], [or], [but], etc. A simple example of a coordination proposal is "John, Mary and Bill come home." In this case, only one of the daughter components is attached to the surface position of the parent component at the stage of constructing the graph of generalized components (540). If the component, which may be the parent, has a surface position filled for the agreed component, for all agreed components, an attempt is made to attach the child components to the parent, regardless of whether there is a connection between the agreed components. At the matching processing stage (550), a linear order is determined, as well as the possibility of multiple filling of surface positions. If possible, a preliminary form is created and attached, which refers to the common child component. In FIG. Figure 5 shows how the matching processor (582) or other algorithms can be adapted to perform matching processing (550) using descriptions (454) when constructing a graph of generalized components (540). The dispatcher algorithm (590) can be configured to build models of generalized components (540).

[0051] Построение графа обобщенных составляющих (540) может быть невозможным без восстановления эллипсиса (560). Эллипсис - это явление языка, выраженное в отсутствии основной составляющей. Процесс восстановление эллипсиса (560) также необходим для восстановления пропущенных составляющих. В английском языке примером эллиптического предложения может быть "The President signed the agreement and the secretary [signed] the protocol". Согласование (550) и восстановление эллипсиса (560) выполняются на этапе каждого цикла программы-диспетчера (590) по окончании построения графа обобщенных составляющих (540), после чего построение может быть продолжено (этот шаг обозначен стрелкой 542). В случае необходимости восстановления эллипсиса (560) и результатов (130) грубого синтаксического анализа (например, несвязанных составляющих), все остальные составляющие обрабатываться не будут. Алгоритм обработки эллипсиса (580) может быть адаптирован для восстановления эллипсиса (560).[0051] Building a graph of generalized components (540) may not be possible without restoring the ellipsis (560). Ellipsis is a phenomenon of language, expressed in the absence of the main component. The ellipse recovery process (560) is also necessary to restore missing components. In English, an example of an elliptical sentence would be "The President signed the agreement and the secretary [signed] the protocol". Coordination (550) and restoration of the ellipsis (560) are performed at the stage of each cycle of the dispatcher program (590) upon completion of the construction of the graph of generalized components (540), after which the construction can be continued (this step is indicated by arrow 542). If it is necessary to restore the ellipsis (560) and the results (130) of rough parsing (for example, unrelated components), all other components will not be processed. The ellipsis processing algorithm (580) can be adapted to restore the ellipsis (560).

[0052] Точный синтаксический анализ[0052] Exact parsing

[0053] Точный синтаксический анализ (140) выполняется в целях построения синтаксического дерева исходного предложения, которое представляет собой дерево лучшей синтаксической структуры. Дерево описывает лучшую синтаксическую структуру (370) исходного предложения, выявленную на основе анализа совокупности оценок. Может быть построено множество синтаксических деревьев. В качестве лучшего дерева будет принята наиболее вероятная синтаксическая структура предложения (370). Семантический анализ (150) проводится семантическим анализатором (342) на основе лучшей синтаксической структуры (370). На его основе генерируется семантическая структура исходного предложения (380). Фиг. 3 показывает, что точный синтаксический анализатор (332) или его аналоги предназначены для выполнения точного синтаксического анализа (140) и создания наилучшей синтаксической структуры (370) на основе вычисления оценок с использованием априорных оценок (336) из графа обобщенных составляющих (360). Априорные оценки (336) включают в себя оценки лексических значений (таких как частота или вероятность), оценки синтаксических конструкций (идиомы, словосочетания и т.д.) для каждого элемента в предложении, а также оценки степени согласованности выбранной синтаксической конструкции и семантического описания глубинных позиций (1220). Помимо априорных оценок могут использоваться статистические оценки, полученные в результате обучения анализатора на больших текстовых корпусах. Вычисляются интегральные оценки и сохраняются системой.[0053] Exact parsing (140) is performed in order to construct a syntax tree of the original sentence, which is a tree of better syntax structure. The tree describes the best syntactic structure (370) of the original sentence, revealed on the basis of the analysis of the totality of estimates. Many syntax trees can be built. The most probable syntactic structure of the sentence (370) will be accepted as the best tree. Semantic analysis (150) is performed by a semantic analyzer (342) based on the best syntactic structure (370). On its basis, the semantic structure of the initial sentence is generated (380). FIG. 3 shows that the exact parser (332) or its analogues are intended to perform accurate parsing (140) and create the best syntax structure (370) based on the calculation of estimates using a priori estimates (336) from the graph of generalized components (360). A priori estimates (336) include estimates of lexical values (such as frequency or probability), estimates of syntactic constructions (idioms, phrases, etc.) for each element in a sentence, as well as estimates of the degree of consistency of the chosen syntactic construction and semantic description of deep Positions (1220). In addition to a priori estimates, statistical estimates obtained as a result of training the analyzer on large text corps can be used. Integral estimates are calculated and stored by the system.

[0054] На следующем этапе выдвигаются гипотезы об общей синтаксической структуре предложения. Каждая гипотеза представлена в виде дерева, которое в свою очередь является подграфом графа обобщенных составляющих (360), охватывающего все предложение целиком. После этого вышеуказанные оценки рассчитываются для каждого синтаксического дерева. В ходе выполнения точного синтаксического анализа (140) гипотезы о синтаксической структуре предложения проверяются путем расчета различных типов оценок. Эти оценки высчитываются как степень согласованности заполнителя глубинных позиций составляющей к их грамматическим и семантическим описаниям, таким как грамматические ограничения в синтформах (например, грамматические значения (414)) и семантические ограничения на заполнение глубинных позиций (1214) в глубинной модели (1212). Также используются степени свободы лексических значений (1312) прагматических описаний (344). Они представляет собой абсолютные и (или) условные вероятностные оценки синтаксических конструкций (поверхностных моделей (410)) и степень сочетаемости их лексических значений с остальными составляющими.[0054] In the next step, hypotheses are put forward about the general syntactic structure of the sentence. Each hypothesis is presented in the form of a tree, which in turn is a subgraph of the graph of generalized components (360), covering the entire sentence. After that, the above estimates are calculated for each syntax tree. In the course of performing exact parsing (140), hypotheses about the syntactic structure of sentences are verified by calculating various types of estimates. These estimates are calculated as the degree of consistency of the placeholder of the deep positions component to their grammatical and semantic descriptions, such as grammatical restrictions in synths (for example, grammatical values (414)) and semantic restrictions on filling in the deep positions (1214) in the deep model (1212). The degrees of freedom of lexical meanings (1312) of pragmatic descriptions (344) are also used. They represent absolute and (or) conditional probabilistic estimates of syntactic constructions (surface models (410)) and the degree of compatibility of their lexical meanings with other components.

[0055] Оценки для каждого вида гипотез могут быть рассчитаны на основе грубых априорных оценок, полученных в результате грубого синтаксического анализа (130). Например, грубая оценка рассчитывается для каждой обобщенной составляющей в графе обобщенных составляющих (360), в результате чего могут быть получены рейтинговые оценки. Для различных оценок могут быть построены синтаксические деревья. Рассчитанные рейтинговые оценки используются при создании гипотез о полной синтаксической структуре предложения. Для этого выбирается гипотеза с наибольшей оценкой. Рейтинг рассчитывается в ходе выполнения точного синтаксического анализа до тех пор, пока не будет получен удовлетворительный результат (построено лучшее синтаксическое дерево с наибольшей оценкой).[0055] Estimates for each type of hypothesis can be calculated based on rough a priori estimates obtained as a result of rough syntactic analysis (130). For example, a rough estimate is calculated for each generalized component in the column of generalized components (360), as a result of which rating estimates can be obtained. For various evaluations, syntax trees can be constructed. The calculated ratings are used to create hypotheses about the complete syntactic structure of the sentence. For this, the hypothesis with the highest rating is selected. The rating is calculated in the course of performing accurate parsing until a satisfactory result is obtained (the best syntax tree with the highest rating is built).

[0056] Далее генерируются и выдвигаются гипотезы, которые отражают наиболее вероятную синтаксическую структуру всего предложения. Гипотезы, полученные на основе анализа синтаксической структуры (370), могут иметь более высокий или более низкий рейтинг. Анализ выполняется до тех пор, пока не будет получен удовлетворительный результат или не будет построено лучшее синтаксическое дерево с наибольшей оценкой.[0056] Next, hypotheses are generated and advanced that reflect the most likely syntactic structure of the whole sentence. Hypotheses derived from syntactic analysis (370) may have a higher or lower rating. The analysis is performed until a satisfactory result is obtained or the best syntax tree with the highest rating is built.

[0057] Лучшее синтаксическое дерево выбирается в качестве гипотезы о синтаксической структуре с наибольшей оценкой, которая отражена в графе (360) обобщенных составляющих. Это синтаксическое дерево считается наилучшей (наиболее вероятной) гипотезой о синтаксической структуре исходного предложения (302). Затем в предложении строятся недревесные связи. После этого синтаксическое дерево трансформируется в граф с наилучшей синтаксической структурой (370), иллюстрирующий наилучшую гипотезу о синтаксической структуре исходного предложения. Если в лучшей синтаксической структуре недревесные связи не могут быть восстановлены, анализ повторяется с использованием следующей в рейтинге структуры.[0057] The best syntax tree is selected as the hypothesis of the syntactic structure with the highest rating, which is reflected in the column (360) of the generalized components. This syntax tree is considered the best (most probable) hypothesis about the syntactic structure of the original sentence (302). Then the proposal builds non-timber ties. After that, the syntax tree is transformed into a graph with the best syntactic structure (370), illustrating the best hypothesis about the syntactic structure of the original sentence. If non-wood links cannot be restored in the best syntactic structure, the analysis is repeated using the structure following in the rating.

[0058] Если точный синтаксический анализ выполнен неуспешно или наиболее вероятная гипотеза не может быть найдена после точного синтаксического анализа, происходит возврат (334) от построения неудачной синтаксической структуры на этапе точного синтаксического анализа (140) к этапу проведения грубого синтаксического анализа (130). Причем в процессе повторного анализа рассматриваются все синтформы (а не только лучшие). Если ни одно лучшее синтаксическое дерево не найдено или система не смогла восстановить недревесные связи во всех выбранных "наилучших структурах", проводится дополнительный грубый синтаксический анализ (130), который учитывает "плохие" синтформы, которые не были проанализированы ранее.[0058] If the exact parsing is unsuccessful or the most probable hypothesis cannot be found after the exact parsing, there is a return (334) from constructing the failed parsing structure at the stage of precise parsing (140) to the stage of conducting rough parsing (130). Moreover, in the process of reanalysis, all syntforms (and not just the best) are considered. If no best syntax tree is found or the system was unable to reconstruct non-wood links in all selected “best structures”, an additional rough syntax analysis is performed (130), which takes into account “bad” synths that have not been analyzed previously.

[0059] Фиг. 7 подробно иллюстрирует точный синтаксический анализ (140), который выполняется для выбора множества наилучших синтаксических структур (370), в соответствии с рассматриваемыми способами осуществления изобретения. Точный синтаксический анализ (140) проводится от структур более высокого к структурам более низкого уровня ("сверху-вниз"). Например, анализ может вестись от вершины в возможном узле графа обобщенных составляющих (360) к дочерним составляющим более низкого уровня.[0059] FIG. 7 illustrates in detail the precise parsing (140) that is performed to select a plurality of the best syntax structures (370), in accordance with the methods for implementing the invention. Accurate parsing (140) is performed from higher-level structures to lower-level structures (top-down). For example, analysis can be conducted from the top in a possible node of the graph of generalized components (360) to daughter components of a lower level.

[0060] Точный синтаксический анализ (140) может включать различные этапы: первоначальный этап, этап создания графа точных составляющих (750), этап создания синтаксических деревьев и дифференциального выбора наилучшей синтаксической структуры (760), этап восстановления недревесных связей (770), получение лучшей синтаксической структуры и т.д. На этапе предварительного анализа граф обобщенных составляющих (360) анализируется с целью подготовки данных для точного синтаксического анализа (140).[0060] Accurate parsing (140) can include various steps: the initial step, the step of creating a graph of the exact components (750), the step of creating syntax trees and differential selection of the best syntax structure (760), the step of restoring non-wood links (770), obtaining the best syntax structure etc. At the stage of preliminary analysis, the graph of generalized components (360) is analyzed in order to prepare data for accurate parsing (140).

[0061] В процессе точного синтаксического анализа (140) строятся точные составляющие. Обобщенные составляющие (522) используются для построения графа точных составляющих (730), на основе которого затем создаются деревья точных составляющих. Для каждой обобщенной составляющей индексируются и маркируются все возможные связи и их дочерние составляющие.[0061] In the process of accurate parsing (140), accurate components are constructed. Generalized components (522) are used to construct a graph of exact components (730), on the basis of which trees of exact components are then created. For each generalized component, all possible relationships and their child components are indexed and marked.

[0062] Генерация синтаксических деревьев (760) выполняется с целью получения наилучшего синтаксического дерева (720). На этапе восстановления недревесных связей 770 используются правила установления недревесных связей и информация о синтаксической структуре предыдущих предложений (375) для анализа синтаксических деревьев (720) и выбора наилучшей синтаксической структуры (370). Каждая дочерняя обобщенная составляющая может быть включена в одну или несколько родительских составляющих в одном или нескольких фрагментах. Точные составляющие являются узлами графа (730), на основе которых строятся деревья точных составляющих. Если в лучшей синтаксической структуре недревесные связи не могут быть восстановлены (772), анализ повторяется с использованием следующей в рейтинге структуры (этап 706).[0062] Generation of syntax trees (760) is performed in order to obtain the best syntax tree (720). At the stage of restoration of non-wood communications 770, the rules for establishing non-wood communications and information on the syntactic structure of previous sentences (375) are used to analyze syntax trees (720) and select the best syntactic structure (370). Each child generalized component can be included in one or more parent components in one or more fragments. Exact components are nodes of the graph (730), on the basis of which trees of exact components are built. If non-woody links cannot be restored in the best syntax structure (772), the analysis is repeated using the next structure in the rating (step 706).

[0063] Граф точных составляющих (730) является промежуточным представлением между графом обобщенных составляющих (360) и синтаксическими деревьями. В отличие от синтаксического дерева, граф точных составляющих (730) может иметь несколько альтернативных заполнителей для каждой поверхностной позиции. Точные составляющие выстраиваются в виде графа таким образом, что каждая составляющая может быть включена сразу в несколько родительских составляющих для того, чтобы оптимизировать дальнейший анализ для выбора синтаксического дерева. В результате формируется компактная структура промежуточного графа, достаточно удобная для подсчета структурного рейтинга.[0063] The graph of exact components (730) is an intermediate representation between the graph of generalized components (360) and syntax trees. Unlike the syntax tree, the exact component graph (730) may have several alternative placeholders for each surface position. The exact components are arranged in the form of a graph so that each component can be included in several parent components at once in order to optimize further analysis to select the syntax tree. As a result, a compact structure of the intermediate graph is formed, which is convenient enough for calculating the structural rating.

[0064] В ходе рекурсивного этапа создания графа точных составляющих (750), точные составляющие строятся на графе линейного деления (740) с помощью левых и правых связей ядра составляющих. На этапе (750) могут быть проанализированы разные модели обобщенных составляющих (732). Мастер точных составляющих (790) или другие алгоритмы могут быть адаптированы с целью построении графа точных составляющих (750). Для каждой составляющей в графе линейного деления (740) строится путь, определяется множество синтформ, а для каждой из синтформ проверяется и оценивается линейный порядок. В результате для каждой синтформы создается точная составляющая, а построение точных дочерних составляющих запускается рекурсивно.[0064] During the recursive step of creating a graph of exact components (750), the exact components are built on a linear division graph (740) using the left and right connections of the core components. At step (750), various models of generalized components (732) can be analyzed. Exact Component Wizard (790) or other algorithms can be adapted to build a graph of exact components (750). For each component in the linear division graph (740), a path is constructed, many synths are determined, and for each of the synths, the linear order is checked and evaluated. As a result, an exact component is created for each synth, and the construction of the exact child components is launched recursively.

[0065] По окончании этапа 750 строится граф точных составляющих, охватывающий все предложение. Если этап создания графа точных составляющих 750 завершился неудачно (730) (т.е. не все предложение было покрыто), инициируется процедура с попыткой покрыть предложение с синтаксически отдельными фрагментами (согласно описанному в этапе детализации фрагментов 710). За детализацию фрагментов отвечает графа линейного деления (715) или иной алгоритм.[0065] At the end of step 750, a graph of the exact components is constructed covering the entire sentence. If the stage of creating the graph of exact components 750 failed (730) (i.e., not all of the sentences were covered), a procedure is initiated with an attempt to cover the sentences with syntactically separate fragments (as described in the fragment granularity 710). Linear division graph (715) or another algorithm is responsible for detailing fragments.

[0066] На Фиг. 7 показано, что если граф точных составляющих (730), охватывающий все предложение, был построен успешно, одно или более синтаксических деревьев могут быть построены на этапе создания 760 в ходе точного синтаксического анализа 140. На этапе генерации синтаксических деревьев (760) создается одно или несколько деревьев с определенной синтаксической структурой. Так как поверхностная структура фиксирована в заданной составляющей, могут быть сделаны поправки в оценках структурного рейтинга, включая наложенные штрафные синтформы, которые могут быть сложными или не соответствовать стилю, или рейтингу контактного линейного порядка, и т.д..[0066] FIG. 7 shows that if a graph of exact components (730), covering the entire sentence, was built successfully, one or more syntax trees can be constructed at the stage of creating 760 during accurate parsing 140. At the stage of generating syntax trees (760), one or several trees with a certain syntactic structure. Since the surface structure is fixed in a given component, corrections can be made in the ratings of the structural rating, including superimposed penalty syntforms, which may be complex or not consistent with the style or rating of the contact linear order, etc.

[0067] Граф точных составляющих (730) включает несколько альтернатив, соответствующих различным фрагментациям предложения и (или) различным наборам поверхностных позиций. Таким образом, граф представляет собой множество возможных деревьев (синтаксических и пр.), поскольку каждая позиция может быть занята несколькими альтернативными заполнителями. Заполнители с наилучшим рейтингом используются в качестве точных составляющих (дерева) с наилучшим рейтингом. Таким образом, точные составляющие представляют собой недвусмысленные (однозначное) синтаксическое дерево с наилучшим рейтингом. На этапе 760 производится поиск альтернатив для построения деревьев с фиксированной синтаксической структурой. Недревесные связи в дереве, созданном на этом этапе, пока еще не установлены - они будут созданы на этапе 770 генератором недревесных связей (785). Результатом данного шага является получение множества синтаксических деревьев (720) с наиболее высокими оценками.[0067] The graph of exact components (730) includes several alternatives corresponding to different fragmentations of the proposal and (or) different sets of surface positions. Thus, a graph is a set of possible trees (syntax, etc.), since each position can be occupied by several alternative placeholders. Top-rated aggregates are used as the exact components (wood) with the best rating. Thus, the exact components are the unambiguous (unambiguous) syntax tree with the best rating. At block 760, a search is made for alternatives for constructing trees with a fixed syntactic structure. Non-wood links in the tree created at this stage have not yet been established - they will be created at step 770 by the non-wood link generator (785). The result of this step is to obtain many syntax trees (720) with the highest ratings.

[0068] Синтаксические деревья строятся на основе графа точных составляющих, в порядке убывания их структурных рейтинговых оценок. Лексические рейтинги на данном этапе не могут быть использованы в полной мере, так как их глубинная семантическая структура к этому моменту еще не определена. В отличие от исходных точных составляющих, каждое синтаксическое дерево на выходе имеет фиксированную синтаксическую структуру, и каждая точная составляющая в ней имеет своего собственного заполнителя для каждой поверхностной позиции.[0068] Syntactic trees are constructed based on a graph of the exact components, in descending order of their structural rating ratings. The lexical ratings at this stage cannot be fully used, since their deep semantic structure has not yet been determined. Unlike the original exact components, each syntax tree at the output has a fixed syntactic structure, and each exact component in it has its own placeholder for each surface position.

[0069] На этапе 760 лучшее синтаксическое дерево (720) может быть сгенерировано рекурсивно и трансверсально, на основе графа точных составляющих (730). Лучшие синтаксические поддеревья строятся для лучших дочерних точных составляющих; синтаксическая структура строится на основе заданной точной составляющей, а дочерние поддеревья присоединяются к сформированной синтаксической структуре. Лучшее синтаксическое дерево (720) может быть построено, например, путем выбора поверхностной позиции с наилучшей оценкой среди остальных поверхностных позиций данной составляющей, или путем создания копии дочерней составляющей, чье поддерево обладает наилучшим качеством. Это процедура применяется рекурсивно к дочерней точной составляющей.[0069] At block 760, the best syntax tree (720) can be generated recursively and transversally, based on the graph of the exact components (730). The best syntax subtrees are built for the best child exact components; the syntactic structure is built on the basis of a given exact component, and the child subtrees are attached to the generated syntactic structure. The best syntax tree (720) can be constructed, for example, by choosing the surface position with the best rating among the remaining surface positions of this component, or by creating a copy of the child component whose subtree has the best quality. This procedure is applied recursively to the child exact component.

[0070] На основе каждой точной составляющей может быть сгенерировано множество наилучших синтаксических деревьев с определенной рейтинговой оценкой. Эта рейтинговая оценка может быть рассчитана заранее и задана в точных составляющих. После того как лучшие деревья сгенерированы, новая составляющая создается на основе предыдущей точной составляющей. Эта новая составляющая, в свою очередь, генерирует синтаксические деревья со вторым по порядку рейтингом. Таким образом, на основе точной составляющей может быть получено и построено наилучшее синтаксическое дерево. Например, для каждой точной составляющей на этапе 760 могут быть сформированы два вида рейтинга - рейтинг качества лучшего синтаксического дерева, которое может быть построено на основе этой точной составляющей, и рейтинг качества второго наилучшего дерева. Затем рейтинг синтаксического дерева может быть рассчитан на основе текущей точной составляющей.[0070] Based on each exact component, a plurality of best syntax trees with a certain rating score can be generated. This rating can be calculated in advance and specified in the exact components. After the best trees are generated, a new component is created based on the previous exact component. This new component, in turn, generates syntax trees with the second highest ranking. Thus, based on the exact component, the best syntax tree can be obtained and built. For example, for each exact component at step 760, two types of ratings can be generated — the quality rating of the best syntax tree, which can be built on the basis of this exact component, and the quality rating of the second best tree. Then the syntax tree rating can be calculated based on the current exact component.

[0071] Рейтинг синтаксического дерева вычисляется на основе следующих значений: структурный рейтинг составляющей, максимальный рейтинг для набора лексических значений; статистика максимальной глубины дочерних позиций и рейтинг дочерних составляющих. После того, как точная составляющая проанализирована для подсчета рейтинга синтаксического дерева, который может быть создан на ее основе, дочерние составляющие с наилучшими рейтингами анализируются в поверхностной позиции. Вычисление рейтинга для второго по рейтингу синтаксического дерева отличается только тем, что для одной из дочерних позиций выбирается его вторая по качеству составляющая. Синтаксическое дерево с минимальным отличием в рейтинге относительно лучшего синтаксического дерева должно выбираться на этапе 760.[0071] The syntax tree rating is calculated based on the following values: structural component rating, maximum rating for a set of lexical values; statistics on the maximum depth of subsidiary positions and the rating of subsidiary components. After the exact component is analyzed to calculate the rating of the syntax tree that can be created on its basis, the daughter components with the best ratings are analyzed in a surface position. The calculation of the rating for the second-rated syntax tree differs only in that for one of the child positions its second-highest component is selected. A syntax tree with a minimal difference in rating relative to the best syntax tree should be selected at block 760.

[0072] На этапе 760 также может быть построено синтаксическое дерево с полностью определенной синтаксической структурой. В такой синтаксической структуре полностью определены синтаксические формы и дочерние составляющие, которые заполняют поверхностные позиции. Синтаксическое дерево (720), созданное на основе наилучшей (наиболее вероятной) гипотезы о синтаксической структуре исходного предложения, считается лучшим деревом. В случае, если синтаксических деревьев с удовлетворяющим рейтингом нет, или точный синтаксический анализ не успешен, система возвращается (762) от создания синтаксических деревьев (720) к построению графа обобщенных составляющих (750).[0072] At block 760, a syntax tree with a fully defined syntax structure may also be constructed. In such a syntactic structure, the syntactic forms and child components that fill the surface positions are fully defined. The syntax tree (720), created on the basis of the best (most probable) hypothesis about the syntactic structure of the original sentence, is considered the best tree. If there are no syntactic trees with a satisfactory rating, or the exact parsing is not successful, the system returns (762) from creating syntax trees (720) to constructing a graph of generalized components (750).

[0073] Фиг. 8 схематично иллюстрирует синтаксическое дерево, согласно примеру осуществления. На Фиг. 8 составляющие показаны в форме прямоугольников (напр., 810, 820, 822, 824, 830 и 832), а стрелками обозначаются заполненные поверхностные позиции. Ядро составляющей представляет собой слово с его морфологическим значением (M-value) и семантическим классом (Semantic Class). Дочерние составляющие соединяются стрелками, в которых обозначены заполненные поверхностные позиции. Каждая составляющая имеет также синтаксическое значение (S-value), выраженное в форме граммем синтаксических категорий. Граммемами характеризуются синтаксические формы, выбранные для составляющей в ходе выполнения точного синтаксического анализа (140).[0073] FIG. 8 schematically illustrates a syntax tree according to an embodiment. In FIG. 8, the components are shown in the form of rectangles (e.g., 810, 820, 822, 824, 830 and 832), and the arrows indicate filled surface positions. The core of the component is a word with its morphological meaning (M-value) and semantic class (Semantic Class). The child components are connected by arrows, in which filled surface positions are indicated. Each component also has a syntactic value (S-value), expressed in the form of grammes of syntactic categories. Grams characterize the syntactic forms chosen for the component during the execution of precise parsing (140).

[0074] На Фиг. 1 показан этап построения независимой от языка семантической структуры (107), передающей смысл исходного предложения. Этот этап может включать также восстановление референциальных связей между предложениями. Одним из примеров референциальной связи является анафора - языковая конструкция, которая может быть интерпретирована лишь с учетом другого, как правило, предшествующего, фрагмента текста.[0074] FIG. Figure 1 shows the stage of constructing a language-independent semantic structure (107) that conveys the meaning of the original sentence. This stage may also include the restoration of referential relations between offers. One example of a referential connection is anaphora - a language construct that can only be interpreted taking into account another, usually the previous, fragment of the text.

[0075] Фиг. 2 иллюстрирует блок-схему способа анализа предложения, согласно описываемому способу реализации изобретения. На Фиг. 1 и Фиг. 2 показано, как лексико-морфологическая структура (222) определяется на этапе анализа (106) исходного предложения (105). Фиг. 2А иллюстрирует пример лексико-морфологической структуры для предложения на английском языке "The child is smart, he’ll do well in life". Лексико-морфологическая структура здесь представляет собой структуру данных, хранящую множество возможных вариантов пар "лексическое/грамматическое значение" для каждой лексической единицы (слова) в предложении. Каждому из слов могут быть присущи несколько значений, а, следовательно, несколько вариантов лексико-грамматических пар. Например, "11" (2207) может означать "shall" (2112) и "will" (2114). Поэтому на схеме указаны оба этих варианта. Слово "shall" может образовывать следующие виды лексико-грамматических пар: <Verb, GTVerbModel, ZeroType, Present, Nonnegative, Composite_||>. Слово "will" может образовывать следующие виды лексико-грамматических пар: <Verb, GTVerbModel, ZeroType, Present, Nonnegative, Irregular, Composite_||>. Также на Фиг. 2A показаны шесть вариантов лексико-грамматических пар для шести значений слова "smart" (2204). На Фиг. 2А также приведены альтернативы для других лексических единиц в предложении (2201, 2202, 2203, 2206, 2208, 2209, 2210 и 2211). Знакам пунктуации - запятым, точкам и пр. (2205 и 2212) - лексико-грамматические пары не присваиваются. Синтаксический анализ предложения реализуется в виде двухэтапного алгоритма (грубого синтаксического анализа и точного синтаксического анализа) с использованием лингвистических моделей и информации различных уровней для вычисления вероятностей и множества синтаксических структур.[0075] FIG. 2 illustrates a flowchart of a proposal analysis method according to the described embodiment of the invention. In FIG. 1 and FIG. 2 shows how the lexical-morphological structure (222) is determined at the stage of analysis (106) of the initial sentence (105). FIG. 2A illustrates an example of a lexical-morphological structure for the English sentence "The child is smart, he’ll do well in life". The lexical-morphological structure here is a data structure that stores many possible variants of the lexical / grammatical meaning pairs for each lexical unit (word) in a sentence. Each of the words may have several meanings, and, therefore, several variants of lexical and grammatical pairs. For example, "11" (2207) can mean "shall" (2112) and "will" (2114). Therefore, the diagram shows both of these options. The word "shall" can form the following types of lexical and grammatical pairs: <Verb, GTVerbModel, ZeroType, Present, Nonnegative, Composite_ ||>. The word "will" can form the following types of lexical and grammatical pairs: <Verb, GTVerbModel, ZeroType, Present, Nonnegative, Irregular, Composite_ ||>. Also in FIG. 2A shows six vocabulary variants for the six meanings of the word “smart” (2204). In FIG. 2A also provides alternatives for other vocabulary units in the sentence (2201, 2202, 2203, 2206, 2208, 2209, 2210 and 2211). Punctuation marks - commas, periods, etc. (2205 and 2212) - lexical and grammatical pairs are not assigned. The sentence parsing is implemented in the form of a two-stage algorithm (rough parsing and accurate parsing) using linguistic models and information of various levels to calculate probabilities and many syntactic structures.

[0076] Как было упомянуто выше, грубый синтаксический анализ применяется к исходному предложению и включает, в частности, генерацию всех потенциально возможных лексических значений слов, образующих предложение или словосочетание, всех потенциально возможных отношений между ними и всех потенциально возможных составляющих. Применяются все вероятные поверхностные синтаксические модели для каждого элемента лексико-морфологической структуры. Затем строятся и обобщаются все возможные составляющие так, чтобы были представлены все возможные варианты синтаксического разбора предложения. В результате формируется граф обобщенных составляющих (232) для последующего точного синтаксического анализа. Граф обобщенных составляющих (232) включает в себя все потенциально возможные связи в предложении. За грубым синтаксическим анализом следует точный синтаксический анализ на графе обобщенных составляющих, в результате которого из него "извлекаются" множество синтаксических деревьев (242), описывающих структуру исходного предложения. Построение синтаксического дерева (242) включает в себя лексический выбор для вершин графа и выбор отношений между ними. Из графа может быть выбрано множество априорных и статистических оценок лексических вариантов и отношений. Априорные и статистические оценки могут быть использованы как для анализа отдельных частей графа, так и для всего дерева. На данном этапе также проверяются и строятся недревесные связи. Далее из полученного множества синтаксических (или семантических) деревьев выбираются только деревья с высокой интегральной оценкой и непохожей синтаксической (или семантической структурой). Например, на основе лучших синтаксических структур могут быть созданы лучшие/наиболее вероятные синтаксические структуры (246) и универсальная, независимая от языка, семантическая структура (252). Ниже описан один из возможных способов оценки сходства/различия структур.[0076] As mentioned above, crude parsing is applied to the original sentence and includes, in particular, the generation of all the potential lexical meanings of the words forming the sentence or phrase, all the potential relationships between them and all potential components. All possible surface syntactic models are applied for each element of the lexical-morphological structure. Then all possible components are built and generalized so that all possible variants of the syntactic analysis of the sentence are presented. As a result, a graph of generalized components (232) is formed for subsequent accurate parsing. The graph of generalized components (232) includes all potential connections in the sentence. Rough parsing is followed by precise parsing on the graph of generalized components, as a result of which many syntax trees (242) describing the structure of the original sentence are "extracted" from it. The construction of the syntax tree (242) includes the lexical choice for the vertices of the graph and the choice of relations between them. A lot of a priori and statistical estimates of lexical options and relationships can be selected from the graph. A priori and statistical estimates can be used both for analysis of individual parts of the graph, and for the whole tree. At this stage, non-timber relationships are also tested and built. Further, from the obtained set of syntactic (or semantic) trees, only trees with a high integral rating and a dissimilar syntactic (or semantic structure) are selected. For example, based on the best syntactic structures, the best / most likely syntactic structures (246) and a universal, language-independent semantic structure (252) can be created. One of the possible ways to assess the similarity / difference of structures is described below.

[0077] В описанном способе реализации изобретения сходство между i-ой и j-ой семантическими структурами может быть измерено, как[0077] In the described embodiment of the invention, the similarity between the i-th and j-th semantic structures can be measured as

Figure 00000001
Figure 00000001

[0078] В описанном способе реализации изобретения различие между i-ой и j-ой семантическими структурами может быть измерено, как[0078] In the described embodiment of the invention, the difference between the i-th and j-th semantic structures can be measured as

[0079]

Figure 00000002
[0079]
Figure 00000002

[0080] Вектор переменных (x1i, …, xni) используется для i-ой семантической структуры, а вектор переменных (x1j, …, xnj) - для j-й семантической структуры. Координаты векторов представляют собой значения параметров, используемых для описания данной семантической структуры. Например, могут быть использованы такие переменные как SemClassi,.deepSlotsi, non - treeLinks, α, β, γ и т.д., где SemClass - семантические классы семантической структуры; deepSlots - глубинные позиции, присвоенные составляющим в семантической структуре; non - treeLinks - недревесные связи, восстановленные в семантической структуре; α, β, γ - значения весов, присваиваемые для перемененных в данном уравнении. Для описываемого примера осуществления для предложения может быть рассчитана функция, определяющая меру близости (или расстояние) ρ(Cki, Clj) между семантическими классом Ck в i-й и классом Clj в j-й семантических структурах, где C(Structurei)=(C-1i, …, Cki, …, Cni) является набором семантических классов для i-й семантической структуры, a (C(Structurej)=C1j, …, Clj, …, Cmj.) - набором семантических классов для j-й семантической структуры. Число семантических классов n в j-й семантической структуре может не быть равным числу семантических классов m в j-й семантической структуре.[0080] The vector of variables (x 1i , ..., x ni ) is used for the i-th semantic structure, and the vector of variables (x 1j , ..., x nj ) is used for the j-th semantic structure. The coordinates of the vectors are the values of the parameters used to describe this semantic structure. For example, such variables as SemClass i , .deepSlots i , non - treeLinks, α, β, γ, etc., where SemClass are the semantic classes of the semantic structure; deepSlots - deep positions assigned to components in the semantic structure; non - treeLinks - non-tree links restored in the semantic structure; α, β, γ are the values of the weights assigned to the variables in this equation. For the described embodiment, for the sentence, a function can be calculated that determines the proximity measure (or distance) ρ (C ki , C lj ) between the semantic class C k in the i-th and the class C lj in the j-th semantic structures, where C (Structure i ) = (C- 1i , ..., C ki , ..., C ni ) is a set of semantic classes for the i-th semantic structure, a (C (Structure j ) = C 1j , ..., C lj , ..., C mj . ) - a set of semantic classes for the j-th semantic structure. The number of semantic classes n in the j-th semantic structure may not be equal to the number of semantic classes m in the j-th semantic structure.

[0081] Например, сходство между структурами Structurei и Structurej может быть посчитано с помощью следующей формулы:[0081] For example, the similarities between Structure i and Structure j can be calculated using the following formula:

Figure 00000003
Figure 00000003

[0082] где |C(Structurei)| - мощность множества Structurei (т.е. число классов в i-ой структуре), |С(Structurei)| - мощность множества Structurej (т.е. число классов в j-ой структуре), а в качестве g выступает математическая функция. Вышеприведенная формула может использоваться для измерения сходства как между семантическими, так и между синтаксическими структурами.[0082] where | C (Structure i ) | is the power of the set Structure i (that is, the number of classes in the i-th structure), | С (Structure i ) | is the power of the set Structure j (i.e., the number of classes in the j-th structure), and the mathematical function acts as g. The above formula can be used to measure similarities between both semantic and syntactic structures.

[0083] Помимо этого, разность между структурами может быть посчитана по формуле:[0083] In addition, the difference between the structures can be calculated by the formula:

Figure 00000004
Figure 00000004

[0084] Фиг. 9А и 9Б иллюстрируют примеры синтаксических структур (деревьев) 900а и 900б, полученных в результате точного синтаксического анализа английского предложения "THE POLICE SHOT THE RIOTERS WITH GUNS". В результате проведенного анализа были выделены две наиболее вероятные синтаксические структуры. Структуры 900а и 900б содержат такие данные об определенной синтаксической информации, как лексические значения, части речи, синтаксические роли, грамматические значения, синтаксические отношения (позиции), синтаксические модели, типы недревесных связей и т.д. В виду того, что исходное предложение содержит неоднозначность (существительное "gun" может зависеть либо от существительного "rioters" либо от глагола "shot"), синтаксические структуры 900а 900б различаются как структурой, так и своими поверхностными/глубинными позициями. Например, существует различие в подчиненности слова "gun". Характер подчиненности проиллюстрирован на схеме стрелками 901 и 903. Содержание глубинных позиций 902 и 904 для лексического значения "gun: ARTILLERY_AS_WEAPON" также различается. В глубинной позиции 903 это "PartComplement_EntityLike", а в позиции 904 - "Instrument". В других примерах возможны различия, обусловленные выбором лексических значений и семантических классов, которые проявляют себя особенно заметно в случаях омонимии и омографии.[0084] FIG. 9A and 9B illustrate examples of syntactic structures (trees) 900a and 900b obtained as a result of accurate parsing of the English sentence "THE POLICE SHOT THE RIOTERS WITH GUNS". As a result of the analysis, the two most likely syntactic structures were identified. Structures 900a and 900b contain data about certain syntactic information such as lexical meanings, parts of speech, syntactic roles, grammatical meanings, syntactic relations (positions), syntactic models, types of non-woody links, etc. In view of the fact that the original sentence contains ambiguity (the noun “gun” can depend either on the noun “rioters” or on the verb “shot”), the syntactic structures 900a 900b differ both in structure and in their surface / depth positions. For example, there is a difference in the subordination of the word "gun". The nature of subordination is illustrated in the diagram by arrows 901 and 903. The content of the deep positions 902 and 904 for the lexical meaning "gun: ARTILLERY_AS_WEAPON" also differs. In deep position 903 it is “PartComplement_EntityLike”, and in position 904 it is “Instrument”. In other examples, differences are possible due to the choice of lexical meanings and semantic classes, which manifest themselves especially noticeably in cases of homonymy and homography.

[0085] Подход двухэтапного анализа базируется на принципе целостного и целенаправленного распознавания. Это означает, что гипотезы о структуре части предложения верифицируются через существующие лингвистические модели в рамках целого предложения. При таком подходе отпадает необходимость в анализе множество тупиковых вариантов разбора. В большинстве случаях такой подход позволяет существенно снизить нагрузку на вычислительные ресурсы, необходимые для анализа предложения.[0085] The two-stage analysis approach is based on the principle of holistic and focused recognition. This means that hypotheses about the structure of a part of a sentence are verified through existing linguistic models within the whole sentence. With this approach, there is no need to analyze a lot of dead-end parsing options. In most cases, this approach can significantly reduce the load on the computing resources needed to analyze the proposal.

[0086] Фиг. 9В и 9Г иллюстрируют схему семантических структур 900в и 900г, полученной в результате анализа предложения "THE POLICE SHOT THE RIOTERS WITH GUNS". Эта структура не зависит от языка исходного предложения и содержит всю информацию для установления передаваемого смысла. Структуры данных 900в и 900г содержат информацию о семантических классах, семантемах (не показаны на рисунке), семантических отношениях (глубинных позициях), недревесных связях и другие данные, достаточные для восстановления смысла исходного предложения на любом языке.[0086] FIG. 9B and 9G illustrate a diagram of the semantic structures 900b and 900g obtained by analyzing the sentence "THE POLICE SHOT THE RIOTERS WITH GUNS". This structure does not depend on the language of the original sentence and contains all the information for establishing the transmitted meaning. Data structures 900v and 900g contain information about semantic classes, semantems (not shown in the figure), semantic relations (deep positions), non-wood relationships and other data sufficient to restore the meaning of the original sentence in any language.

[0087] Независимая от языка семантическая структура предложения представляет собой ациклический граф (дерево, дополненное недревесными связями), где каждое слово определенного языка заменено универсальными (независимыми от языка) семантическими сущностями, называемыми также семантическими классами. Организация семантических классов в семантическую иерархию имеет практический смысл для данного осуществления изобретения. Семантическая иерархия организована в форме иерархии семантических классов, где каждый "дочерний" семантический класс и его "потомки" наследуют значительную часть свойств родительского и всех предшествующих семантических классов ("предков"). Например, семантический класс SUBSTANCE (вещество) является дочерним классом достаточно широкого класса ENTITY (сущность), и в то же время он является "родителем" для семантических классов GAS (газ), LIQUID (жидкость), METAL (металл), WOOD_MATERIAL (дерево как материал), и т.д. Каждый семантический класс в семантической иерархии привязан к глубинной семантической модели. Глубинная модель представляет собой множество глубинных позиций (напр., типов семантических отношений в предложениях). Глубинные позиции отражают семантические роли дочерних составляющих (структурных единиц предложения) в различных предложениях с объектами определенного семантического класса в качестве ядра родительской составляющей, а также возможные семантические классы для заполнения позиций. Эти глубинные позиции выражают семантические отношения между составляющими, такими как "agent" (агент), "addressee" (адресат), "instrument" (инструмент), "quantity" (количество) и т.д. Дочерний класс наследует и подстраивает глубинную модель родительского класса.[0087] The language-independent semantic structure of the sentence is an acyclic graph (tree supplemented by non-wood links), where each word of a particular language is replaced by universal (language-independent) semantic entities, also called semantic classes. The organization of semantic classes into a semantic hierarchy makes practical sense for this embodiment of the invention. The semantic hierarchy is organized in the form of a hierarchy of semantic classes, where each "child" semantic class and its "descendants" inherit a significant part of the properties of the parent and all previous semantic classes ("ancestors"). For example, the semantic class SUBSTANCE (substance) is a daughter class of a fairly wide class ENTITY (entity), and at the same time it is the "parent" for the semantic classes GAS (gas), LIQUID (liquid), METAL (metal), WOOD_MATERIAL (wood as material), etc. Each semantic class in the semantic hierarchy is tied to a deep semantic model. An in-depth model is a multitude of in-depth positions (e.g., types of semantic relationships in sentences). The deep positions reflect the semantic roles of child components (structural units of the sentence) in various sentences with objects of a particular semantic class as the core of the parent component, as well as possible semantic classes to fill in the positions. These deep positions express the semantic relationships between components, such as "agent" (agent), "addressee" (destination), "instrument" (instrument), "quantity" (quantity), etc. The child class inherits and adjusts the deep model of the parent class.

[0088] Семантическая иерархия устроена таким образом, что более общие понятия находятся на верхних уровнях иерархии. Например, в отношении документов могут применяться следующие семантические классы: PRINTED_MATTER (печатное издание), SCIENTIFIC_AND_LITERARY_WORK (научные труды и литература), TEXT_AS_PART_OF_CREATIVE_WORK (творческие тексты). Эти классы могут быть потомками класса TEXT_OBJECTS_AND_DOCUMENTS (текстовые объекты и документы). Класс PRINTED_MATTER (печатное издание) в свою очередь является родительским для семантического класса EDITION_AS_TEXT (издание как текст), содержащего классы PERIODICAL (периодические издания) и NONPERIODICAL (непериодические издания), где PERIODICAL (периодические издания) - родительский класс для классов ISSUE (выпуск), MAGAZINE (журнал), NEWSPAPER (газета) и т.д. Подход к делению на классы может отличаться. Отметим, что в основе описываемого изобретения лежат понятия, не зависящие от конкретного языка.[0088] The semantic hierarchy is structured in such a way that more general concepts are at the upper levels of the hierarchy. For example, the following semantic classes can be applied to documents: PRINTED_MATTER (print), SCIENTIFIC_AND_LITERARY_WORK (scientific papers and literature), TEXT_AS_PART_OF_CREATIVE_WORK (creative texts). These classes can be descendants of the TEXT_OBJECTS_AND_DOCUMENTS class (text objects and documents). The PRINTED_MATTER class (print edition), in turn, is the parent class for the semantic class EDITION_AS_TEXT (edition as text), which contains the classes PERIODICAL (periodicals) and NONPERIODICAL (non-periodicals), where PERIODICAL (periodicals) is the parent class for the ISSUE classes (edition) , MAGAZINE (magazine), NEWSPAPER (newspaper), etc. The approach to dividing into classes may vary. Note that the basis of the described invention are concepts that are independent of a particular language.

[0089] Фиг. 10 представляет собой схему, иллюстрирующую взаимосвязь языковых описаний (1010), согласно описываемой реализации изобретения. Лингвистические описания (1010) - это лексические (101), морфологические (102), синтаксические (103) и семантические описания (104). Все лингвистические описания (1010) объединены в общее понятие. На Фиг. 11 представлена схема, подробно иллюстрирующая морфологические описания (102). На Фиг. 4 подробно проиллюстрированы синтаксические описания (103). На Фиг. 13 представлена схема, подробно иллюстрирующая лексические описания (101). На Фиг. 12 представлена схема, подробно иллюстрирующая семантические описания (104).[0089] FIG. 10 is a diagram illustrating the relationship of language descriptions (1010) according to the described embodiment of the invention. Linguistic descriptions (1010) are lexical (101), morphological (102), syntactic (103), and semantic descriptions (104). All linguistic descriptions (1010) are combined into a common concept. In FIG. 11 is a diagram illustrating in detail morphological descriptions (102). In FIG. 4, syntax descriptions are illustrated in detail (103). In FIG. 13 is a diagram illustrating in detail lexical descriptions (101). In FIG. 12 is a diagram illustrating semantic descriptions in detail (104).

[0090] Семантическая иерархия может быть создана единовременно, а затем заполнена для каждого определенного языка. Семантический класс в каждом отдельном языке включает лексические значения с соответствующими моделями. Семантические описания (104) не зависят от языка. Семантические описания (104) могут содержать описания глубинных составляющих, а также содержать семантическую иерархию, описания глубинных позиций, систему семантем и прагматических описаний.[0090] A semantic hierarchy can be created at a time and then populated for each specific language. The semantic class in each individual language includes lexical meanings with corresponding models. Semantic descriptions (104) are language independent. Semantic descriptions (104) can contain descriptions of the deep components, as well as contain a semantic hierarchy, descriptions of deep positions, a system of semantems and pragmatic descriptions.

[0091] В описываемом варианте осуществления морфологические (101), лексические (103), синтаксические (102) и семантические описания (104) связаны между собой, как показано на Фиг. 10. Лексическое значение может иметь несколько поверхностных (синтаксических) моделей, обусловленных семантемами и прагматическими характеристиками. Синтаксические описания (102) и семантические описания (104) также связаны между собой. Например, диатеза синтаксических описаний (102) может рассматриваться как "интерфейс" между зависимыми от языка поверхностными моделями и независимыми от языка глубинными моделями семантического описания (104).[0091] In the described embodiment, morphological (101), lexical (103), syntactic (102) and semantic descriptions (104) are interconnected, as shown in FIG. 10. Several superficial (syntactic) models due to semantems and pragmatic characteristics can have lexical meaning. Syntactic descriptions (102) and semantic descriptions (104) are also related. For example, the diathesis of syntactic descriptions (102) can be considered as an “interface” between language-dependent surface models and language-independent deep models of semantic description (104).

[0092] Фиг.4 дает пример синтаксического описания (102). В состав синтаксического описания (102) могут включаться поверхностные модели (410), синтаксические формы (412), поверхностные позиции (415), описания линейного порядка (416), диатезы (417), грамматические значения (414), описания управления и согласования (440), коммуникативные описания (480), правила анализа (460), правила вычисления семантем (462), правила нормализации (464), описания поверхностных позиций (420), описания недревесного синтаксиса (450), описания эллипсиса (452), описания сочинения (454) и описания референциального и структурного управления (456). Синтаксические описания (102) используются для построения возможных синтаксических структур предложения на исходном языке, с учетом порядка слов, недревесного синтаксиса (согласования, эллипсис и пр.), референциального управления и прочих явлений.[0092] FIG. 4 gives an example of a syntax description (102). The syntax description (102) can include surface models (410), syntactic forms (412), surface positions (415), linear order descriptions (416), diathesis (417), grammatical values (414), control and matching descriptions ( 440), communicative descriptions (480), rules of analysis (460), rules for calculating semantems (462), rules for normalizing (464), descriptions of surface positions (420), descriptions of non-wood syntax (450), descriptions of ellipsis (452), descriptions of composition (454) and descriptions of referential and structural management (456). Syntactic descriptions (102) are used to construct possible syntactic structures of sentences in the source language, taking into account the word order, non-wood syntax (matching, ellipsis, etc.), referential control, and other phenomena.

[0093] Фиг. 11 дает пример морфологического описания (101), согласно примеру осуществления изобретения. Составляющими морфологических описаний (101) могут быть описания словоизменений (1110), грамматических систем (1120) и словообразований (1130). В описываемом осуществлении грамматическая система (1120) включает в себя такие грамматические категории, как "Часть речи", "Падеж", "Род", "Число", "Лицо", "Возвратность", "Время", "Вид", а также их значения. Подобные категории называются граммемами.[0093] FIG. 11 gives an example of a morphological description (101) according to an embodiment of the invention. The components of morphological descriptions (101) can be descriptions of inflections (1110), grammatical systems (1120) and derivations (1130). In the described embodiment, the grammar system (1120) includes grammatical categories such as “Part of speech”, “Case”, “Rod”, “Number”, “Person”, “Return”, “Time”, “View”, and also their meanings. Similar categories are called grammes.

[0094] Фиг. 12 дает пример семантического описания (104), согласно примеру осуществления изобретения. В то время как поверхностные позиции (420) отражают синтаксические отношения и способы их реализации в конкретном языке, глубинные позиции (1214) - семантические роли дочерних (зависимых) составляющих в глубинных моделях (1212) семантической иерархии (1210). Следовательно, описания поверхностных позиций (и поверхностных моделей в целом) будут уникальны для каждого конкретного языка. Описания глубинных моделей (1220) содержат грамматические и семантические ограничения для заполнителей глубинных позиций. Свойства и ограничения глубинных позиций (1214), а также их заполнители в глубинных моделях (1212), зачастую похожи и даже идентичны для различных языков.[0094] FIG. 12 gives an example of a semantic description (104) according to an embodiment of the invention. While surface positions (420) reflect syntactic relations and ways of their implementation in a particular language, deep positions (1214) are the semantic roles of daughter (dependent) components in deep models (1212) of the semantic hierarchy (1210). Consequently, descriptions of surface positions (and surface models in general) will be unique to each specific language. Descriptions of deep models (1220) contain grammatical and semantic restrictions for placeholders of deep positions. Properties and limitations of deep positions (1214), as well as their placeholders in deep models (1212), are often similar and even identical for different languages.

[0095] Система семантем (1230) представляет собой множество семантических категорий. Семантемы могут отражать лексические (1234) и грамматические (1232) категории или атрибуты, а также дифференциальные свойства и стилистические, прагматические и коммуникативные характеристики. Например, семантическая категория "DegreeOfComparison" (степень сравнения) может быть использована для описания степеней сравнения, выраженных разными формами прилагательных, например, "easy", "easier" and "easiest". Поэтому категории могут быть присущи такие семантемы, как "Positive", "ComparativeHigherDegree" и "SuperlativeHighestDegree". Лексические семантемы (1234) описывают специфические свойства объектов, такие как "быть плоским" (being flat) или "быть жидким" (being liquid), которые выступают в роли ограничений для заполнителей глубинных позиций. Классификация грамматических (дифференциальных) семантем (1236) используется для выражения дифференциальных свойств внутри одного семантического класса. Прагматические описания (1240) служат для того, чтобы в процессе анализа текста фиксировать его тему, стиль или жанр, а также присваивать соответствующие характеристики объектам семантической иерархии. Прагматические описания (1240) могут служить, например, для описания таких тем, как экономическая политика, внешняя политика, правосудие, законодательство, торговля, финансы и т.п.[0095] The semantem system (1230) is a set of semantic categories. Semantems can reflect lexical (1234) and grammatical (1232) categories or attributes, as well as differential properties and stylistic, pragmatic and communicative characteristics. For example, the semantic category "DegreeOfComparison" (degree of comparison) can be used to describe the degrees of comparison expressed by different forms of adjectives, for example, "easy", "easier" and "easiest". Therefore, categories may include semantems such as Positive, ComparativeHigherDegree, and SuperlativeHighestDegree. Lexical semantems (1234) describe the specific properties of objects, such as being flat or being liquid, which act as constraints for placeholders of deep positions. The classification of grammatical (differential) semantems (1236) is used to express differential properties within a single semantic class. Pragmatic descriptions (1240) serve to fix its theme, style or genre in the process of analyzing a text, as well as assign appropriate characteristics to objects of the semantic hierarchy. Pragmatic descriptions (1240) can serve, for example, to describe topics such as economic policy, foreign policy, justice, legislation, trade, finance, etc.

[0096] Фиг. 13 дает схему, иллюстрирующую лексические описания (103), согласно описываемой реализации изобретения. Лексические описания (103) включают в себя лексико-семантический словарь (1304), состоящий из ряда лексических значений (1312), образующих вместе со своими семантическими классами семантическую иерархию, где каждое лексическое значение (1312) связано с независимой от языка семантической категорией (или "местом" в семантической иерархии - 1302), глубинной моделью (1212), поверхностной моделью (410), а также грамматическим (1308) и семантическим значением (1310). Лексическое значение может объединять различные дериваты (например, слова, выражения, фразы), выражающие смысл с помощью различных частей речи, форм слова, однокоренных слов и пр. В свою очередь, семантический класс объединяет лексические значения близких по смыслу слов и выражений на разных языках.[0096] FIG. 13 provides a diagram illustrating lexical descriptions (103) according to the described implementation of the invention. Lexical descriptions (103) include a lexical-semantic dictionary (1304), consisting of a series of lexical meanings (1312), forming, together with their semantic classes, a semantic hierarchy, where each lexical meaning (1312) is associated with a language-independent semantic category (or the “place” in the semantic hierarchy is 1302), the deep model (1212), the surface model (410), as well as the grammatical (1308) and semantic meaning (1310). The lexical meaning can combine various derivatives (for example, words, expressions, phrases) that express meaning using various parts of speech, word forms, cognate words, etc. In turn, the semantic class combines the lexical meanings of words and expressions that are similar in meaning in different languages .

[0097] В процессе анализа текста системе приходится решать задачу выявления неоднозначности в тексте.[0097] In the process of analyzing the text, the system has to solve the problem of detecting ambiguity in the text.

[0098] Под неоднозначностью понимается выявление нескольких различных высоковероятных структур на одном из этапов глубинного анализа текста. Под высоковероятной понимается структура, обладающая высокой интегральной оценкой. Помимо этого могут быть использованы любые другие критерии определения высоковероятной структуры.[0098] Under the ambiguity refers to the identification of several different highly probable structures at one stage of the in-depth analysis of the text. Highly probable is understood as a structure with a high integrated rating. In addition, any other criteria for determining a highly probable structure can be used.

[0099] Пошаговая реализация алгоритма глубинного анализа, основанного на использовании семантической иерархии (СИ), представлена в настоящем описании. Тип неоднозначности определяется на этапе ее обнаружения. Например, под синтаксической неоднозначностью может пониматься возникновение нескольких вероятных синтаксических структур на этапе синтаксического анализа. Аналогичным образом, под семантической неоднозначностью может пониматься возникновение нескольких вероятных семантических структур на этапе семантического анализа.[0099] A step-by-step implementation of an in-depth analysis algorithm based on the use of semantic hierarchy (SI) is presented in the present description. The type of ambiguity is determined at the stage of its discovery. For example, syntactic ambiguity may mean the occurrence of several likely syntactic structures at the stage of parsing. Similarly, semantic ambiguity can mean the occurrence of several likely semantic structures at the stage of semantic analysis.

[00100] За вероятную принимается та структура, которая обладает высокой интегральной оценкой, полученной на основе множество априорных и статистических оценок. Априорные и статистические оценки могут быть использованы как для анализа отдельных частей графа на разных этапах, так и для всего дерева. В описываемой реализации изобретения на этапе синтаксического анализа строится множество структур (например, синтаксических деревьев). Из множества синтаксических структур выбираются лучшие.[00100] The structure that has a high integral estimate obtained on the basis of a lot of a priori and statistical estimates is taken as probable. A priori and statistical estimates can be used both for the analysis of individual parts of the graph at different stages, and for the whole tree. In the described implementation of the invention, a plurality of structures (for example, syntax trees) are constructed at the parsing stage. Of the many syntactic structures, the best are selected.

[00101] Может случиться так, что дерево, имеющее меньшую интегральную оценку, также может корректно отражать структуру анализируемого предложения. Тем не менее, оно может быть исключено из дальнейшего анализа как менее вероятное, ввиду различных способов вычисления статистических оценок, может обладать меньшей интегральной оценкой или иных причин. Такая возможность учитывается в рамках представленного способа выявления неоднозначности в текстах на естественном языке. Поэтому на различных этапах глубинного анализа текста извлекаются отличающиеся структуры, обладающие высокими интегральными оценками.[00101] It may happen that a tree having a lower integral estimate can also correctly reflect the structure of the sentence being analyzed. However, it may be excluded from further analysis as less likely, due to various methods of calculating statistical estimates, it may have a lower integral estimate or other reasons. Such an opportunity is taken into account in the framework of the presented method for identifying ambiguity in natural language texts. Therefore, at different stages of the in-depth analysis of the text, differing structures with high integral estimates are extracted.

[00102] Например, на этапе построения синтаксических и семантических структур для каждой соответствующей структуры в тексте вычисляются интегральные оценки. Выявление нескольких различных синтаксических (семантических) структур с наибольшей интегральной оценкой будет означать синтаксическую (семантическую) неоднозначность текста. Значение Δ, отражающее допустимую разницу между интегральными оценками структур, может быть установлено заранее, и на основании него можно различать отдельные структуры. Условно этот правило может быть записано в виде неравенства:[00102] For example, at the stage of constructing syntactic and semantic structures for each corresponding structure in the text, integral estimates are calculated. Identification of several different syntactic (semantic) structures with the highest integral rating will mean the syntactic (semantic) ambiguity of the text. The value of Δ, reflecting the allowable difference between the integral estimates of the structures, can be set in advance, and based on it, individual structures can be distinguished. Conventionally, this rule can be written as inequality:

Figure 00000005
Figure 00000005

[00103] Si - интегральная оценка i-й семантической структуры, Sj - интегральная оценка j-й семантической структуры, Δ - некоторое заранее установленное (или подобранное) значение, в пределах которого могут отличаться оценки семантических структур, чтобы считаться наиболее вероятными и быть отобранными из исходного множества структур.[00103] S i is the integral estimate of the i-th semantic structure, S j is the integral estimate of the j-th semantic structure, Δ is some predetermined (or selected) value within which the estimates of semantic structures may differ to be considered the most probable and be selected from the original set of structures.

[00104] Помимо числового значения, отображающего оценку структуры (синтаксической или семантической), могут быть введены другие правила, согласно которым определяется, насколько должны быть различны семантические структуры, чтобы считаться разными. Предложение, в котором есть неоднозначность, может быть визуально выделено в тексте.[00104] In addition to a numerical value representing the evaluation of the structure (syntactic or semantic), other rules can be introduced according to which it is determined how different the semantic structures must be in order to be considered different. A sentence in which there is ambiguity can be visually highlighted in the text.

[00105] Согласно описываемому варианту осуществления изобретения, неоднозначность может быть обнаружена на основе анализа содержимого документа. Допустим, что документ представляет собой юридический или иной правовой акт, составленный на естественном языке. Однако текст в документе может не ограничиваться одним единственным языком, документ может включать блоки текста на различных языках. В результате глубинного анализа всех предложений в тексте документа система визуально отображает пользователю слова, словосочетания, предложения или абзацы, в которых зафиксирована неоднозначность. Выявление неоднозначности поможет пользователю предотвратить ошибки, которые могут возникнуть, например, при переводе документа на иностранный язык по причине неверного толкованием исходного текста.[00105] According to the described embodiment, ambiguity can be detected based on an analysis of the contents of the document. Suppose that the document is a legal or other legal act drawn up in natural language. However, the text in the document may not be limited to one single language, the document may include blocks of text in different languages. As a result of an in-depth analysis of all sentences in the text of the document, the system visually displays to the user words, phrases, sentences or paragraphs in which the ambiguity is recorded. Disambiguation will help the user prevent errors that may occur, for example, when translating a document into a foreign language due to an incorrect interpretation of the source text.

[00106] Кроме того, данное изобретение может быть использовано при машинном переводе текста. Подробное описание различных способов машинного перевода дано в следующих патентных заявках США: 12/187 131 - "СПОСОБ ПЕРЕВОДА ДОКУМЕНТОВ С ОДНОГО ЯЗЫКА НА ДРУГОЙ С ПОМОЩЬЮ БАЗЫ ПЕРЕВОДОВ, ТЕРМИНОЛОГИЧЕСКОГО СЛОВАРЯ, ПЕРЕВОДНОГО СЛОВАРЯ И СИСТЕМЫ МАШИННОГО ПЕРЕВОДА; 13/477021 - СПОСОБ И СИСТЕМА ПЕРЕВОДА ПРЕДЛОЖЕНИЙ С ОДНОГО ЯЗЫКА НА ДРУГОЙ" (12/187 131 A METHOD FOR TRANSLATING DOCUMENTS FROM ONE LANGUAGE INTO ANOTHER USING A DATABASE OF TRANSLATIONS, A TERMINOLOGY DICTIONARY, A TRANSLATION DICTIONARY, AND A MACHINE TRANSLATION SYSTEM; 13/477021 - METHOD AND SYSTEM FOR TRANSLATING SENTENCES BETWEEN LANGUAGES).[00106] In addition, the present invention can be used in machine translation of a text. A detailed description of the various machine translation methods is given in the following US patent applications: 12/187 131 - "METHOD FOR TRANSLATING DOCUMENTS FROM ONE LANGUAGE USING AN OTHER TRANSLATION DATABASE, TERMINOLOGICAL DICTIONARY ONE IS FIRST TIME AND ONLY ONE WAYS FROM ONE-ONE-TIME AND ON-OFF SYSTEM; PROPOSALS FROM ONE LANGUAGE TO ANOTHER "(12/187 131 A METHOD FOR TRANSLATING DOCUMENTS FROM ONE LANGUAGE INTO ANOTHER USING A DATABASE OF TRANSLATIONS, A TERMINOLOGY DICTIONARY, A TRANSLATION DICTIONARY, AND A MACHINE TRANSLATION SYSTEM FORM / 13; TRANSLATING SENTENCES BETWEEN LANGUAGES).

[00107] Большинство систем машинного перевода предлагает один возможный вариант перевода предложения или фразы, предоставляя возможность просматривать или изменять лишь переводы отдельных слов. В описываемом варианте осуществления изобретения пользователю предоставляется доступ к альтернативным вариантам перевода целого предложения (если его толкование неоднозначно). При этом альтернативные варианты перевода могут отражать совершенно разные смыслы предложения и иметь разные семантические и синтаксические структуры. Такая возможность особенно полезна для пользователей, не являющихся носителями языка.[00107] Most machine translation systems offer one possible option for translating a sentence or phrase, providing the ability to view or change only translations of individual words. In the described embodiment of the invention, the user is granted access to alternative translations of the whole sentence (if its interpretation is ambiguous). Moreover, alternative translation options may reflect completely different meanings of the sentence and have different semantic and syntactic structures. This feature is especially useful for users who are not native speakers.

[00108] Таким образом, на этапе синтеза перевода на основе построенных семантических структур формируется несколько вариантов перевода, каждый из которых доступен пользователю в качестве альтернативы. Фиг. 16 показывает блок-схему, иллюстрирующую алгоритм синтеза перевода на основе построенных семантических структур.[00108] Thus, at the stage of translation synthesis, several translation options are generated based on the constructed semantic structures, each of which is available to the user as an alternative. FIG. 16 shows a flowchart illustrating a translation synthesis algorithm based on constructed semantic structures.

[00109] Фиг. 14 иллюстрирует блок-схему, согласно примеру реализации изобретения. Система получает на входе документ или текст (1410), в котором предполагается найти предложения или словосочетания, содержащие неоднозначность. Понятие "текст" распространяется на любые документы, содержащие знаки, в том числе иероглифические. В случае, если текст представлен в нередактируемом формате, документ может быть предварительно распознан при помощи технологии оптического или интеллектуального распознавания.[00109] FIG. 14 illustrates a block diagram according to an embodiment of the invention. The system receives at the input a document or text (1410), in which it is supposed to find sentences or phrases containing ambiguity. The concept of "text" applies to any documents containing signs, including hieroglyphic ones. If the text is presented in an uneditable format, the document can be previously recognized using optical or intelligent recognition technology.

[00110] Затем проводится глубинный анализ текста (1420), включающий лексико-морфологический, синтаксический и семантический анализ. Подробное описание процесса глубинного анализа предложения представлено выше. Также подробное описание системы глубинного анализа приведено в патенте США 8078450 - "СПОСОБ И СИСТЕМА АНАЛИЗА РАЗЛИЧНЫХ ЯЗЫКОВ И ПОСТРОЕНИЕ НЕЗАВИСИМЫХ ОТ ЯЗЫКА СЕМАНТИЧЕСКИХ СТРУКТУР" (METHOD AND SYSTEM FOR ANALYZING VARIOUS LANGUAGES AND CONSTRUCTING LANGUAGE-INDEPENDENT SEMANTIC STRUCTURES).[00110] Then, an in-depth analysis of the text (1420) is carried out, including lexical-morphological, syntactic and semantic analysis. A detailed description of the process of in-depth analysis of the proposal is presented above. A detailed description of the in-depth analysis system is given in US Pat.

[00111] В процессе выполнения глубинного анализа 1420 проводится грубый, а затем точный синтаксический анализ, формируются графы обобщенных составляющих, на основе которых строятся синтаксические и семантические деревья. Синтаксические деревья с наибольшими интегральными оценками считаются наилучшими, или другими словами, наиболее вероятными. Некоторые деревья, полученные в результате глубинного структурного анализа, по своей оценке могут лишь незначительно отличаться от наиболее вероятных деревьев, но, тем не менее, иметь другую структуру, другие зависимости, недревесные связи и пр. Такие дополнительные структуры могут отображать дополнительный (скрытый, менее частотный) смысл предложения. Поэтому они учитываются и обрабатываются в дальнейшем анализе.[00111] In the process of performing in-depth analysis 1420, a rough and then precise syntactic analysis is performed, graphs of generalized components are formed, on the basis of which syntactic and semantic trees are built. The syntax trees with the highest integral ratings are considered the best, or in other words, the most probable. Some trees obtained as a result of in-depth structural analysis, by their estimation, can only slightly differ from the most probable trees, but, nevertheless, have a different structure, other dependencies, non-wood connections, etc. Such additional structures may display additional (hidden, less frequency) the meaning of the sentence. Therefore, they are taken into account and processed in further analysis.

[00112] Например, в тексте может быть проанализирована синтаксическая неоднозначность. Синтаксическая неоднозначность может быть выявлена на этапе синтаксического анализа 1420. Иными словами, на этапе синтаксического анализа могут быть построены синтаксические деревья с разной структурой, но высокими интегральными оценками, отличающимися на некоторое значение Δ.[00112] For example, syntax ambiguity can be analyzed in the text. Syntactic ambiguity can be detected at the parsing stage 1420. In other words, at the parsing stage, syntax trees with different structures, but high integral estimates, differing by some Δ value can be constructed.

[00113] На этапе семантического анализа (1430) на основе лучших синтаксических структур строятся независимые от языка семантические структуры, передающие смысл исходного предложения. Если на этапе построения синтаксических структур выявлено несколько наиболее вероятных деревьев, то строится несколько семантических структур. Свидетельством семантической неоднозначности в тексте будем считать наличие нескольких вероятных семантических структур.[00113] At the stage of semantic analysis (1430) based on the best syntactic structures, language-independent semantic structures are constructed that convey the meaning of the original sentence. If at the stage of constructing syntactic structures several most probable trees are revealed, then several semantic structures are constructed. The evidence of semantic ambiguity in the text will be considered the presence of several probable semantic structures.

[00114] На этапе 1440 проводится дальнейший анализ семантических структур. Например, может быть рассчитана степень сходства или различия между семантическими структурами (в соответствие с формулами описанными выше). Выявление нескольких различных структур с высокими интегральными оценками в параллельных предложениях в параллельных текстах (когда различаются структуры аналогичных по расположению в тексте предложений (1450)) служит индикатором того, что в предложении существует неоднозначность (1460).[00114] At block 1440, further analysis of semantic structures is performed. For example, the degree of similarity or difference between semantic structures (in accordance with the formulas described above) can be calculated. The identification of several different structures with high integral ratings in parallel sentences in parallel texts (when structures of similar positions in the text of sentences (1450) differ) serves as an indicator that ambiguity exists in the sentence (1460).

[00115] Пример синтаксической неоднозначности представлен в следующем словосочетании: "THE RUSSIAN HISTORY STUDENT", которое может трактоваться как "СТУДЕНТ, ИЗУЧАЮЩИЙ РУССКУЮ ИСТОРИЮ" или "РУССКИЙ СТУДЕНТ, ИЗУЧАЮЩИЙ ИСТОРИЮ". Фиг. 15А и Фиг. 15Б иллюстрируют примеры синтаксических деревьев 1500а и 15006, отражающих синтаксические связи в английском словосочетании. На Фиг. 15А прилагательное "Russian", относящееся к Лексическому объекту "Russia: RUSSIA" с глубинной позицией "Locative_AttributeGenitive" зависит от существительного "history", в то время как само существительное "history" зависит от существительного "student". Согласно второму толкованию, синтаксическое дерево которого проиллюстрировано на Фиг. 15Б, прилагательное "Russian" и существительное "history" относятся к существительному "student". Оба синтаксических дерева обладают высокими интегральными оценками, но различной структурой. Это свидетельствует о том, что исходное предложение содержит синтаксическую неоднозначность. Поскольку синтаксические структуры различны, будут отличаться и семантические структуры, построенные для каждого синтаксического дерева в отдельности. Семантические структуры 1500в и 1500г показаны на Фиг. 15В и Фиг. 15Г. По результатам синтеза перевода на основе семантических структур (блок-схема на Фиг. 14), перевод фразы на русский язык согласно первой синтаксической структуре будет звучать как “СТУДЕНТ, ИЗУЧАЮЩИЙ РУССКУЮ ИСТОРИЮ”, а на немецкий - “EIN STUDENT, DER DIE RUSSISCHE GESCHICHTE LERNT”. Согласно второй синтаксической структуре перевод на русский будет будет звучать как "РУССКИЙ СТУДЕНТ, ИЗУЧАЮЩИЙ ИСТОРИЮ", а на немецкий - “EIΝ RUSSISCHER STUDENT, DER DIE GESCHICHTE LERNT”.[00115] An example of syntactic ambiguity is provided in the following phrase: "THE RUSSIAN HISTORY STUDENT", which can be interpreted as "STUDENT STUDYING RUSSIAN HISTORY" or "RUSSIAN STUDENT STUDYING HISTORY". FIG. 15A and FIG. 15B illustrate examples of syntax trees 1500a and 15006 reflecting syntactic links in an English phrase. In FIG. 15A, the adjective "Russian" relating to the Lexical object "Russia: RUSSIA" with the deep position "Locative_AttributeGenitive" depends on the noun "history", while the noun "history" itself depends on the noun "student". According to a second interpretation, the syntax tree of which is illustrated in FIG. 15B, the adjective "Russian" and the noun "history" refer to the noun "student". Both syntax trees have high integral ratings, but different structure. This indicates that the original sentence contains syntactic ambiguity. Since the syntactic structures are different, the semantic structures built for each syntax tree separately will also differ. The semantic structures 1500c and 1500g are shown in FIG. 15B and FIG. 15G. According to the results of the synthesis synthesis based on semantic structures (block diagram in Fig. 14), the translation of the phrase into Russian according to the first syntactic structure will sound like “STUDENT LEARNING RUSSIAN HISTORY”, and into German “EIN STUDENT, DER DIE RUSSISCHE GESCHICHTE LERNT. " According to the second syntactic structure, the translation into Russian will sound like “RUSSIAN STUDENT STUDYING HISTORY”, and into German - “EIΝ RUSSISCHER STUDENT, DER DIE GESCHICHTE LERNT”.

[00116] Другим примером синтаксической неоднозначности является словосочетание “temporary and part-time employees”. На основе первой, наиболее вероятной семантической структуры перевод может звучать, как “временно нанятые сотрудники” и “сотрудники, нанятые на неполный рабочий день" (employees who are temporary or employees who are part-time). На основе второй семантической структуры перевод звучит как “сотрудники, которые наняты временно на неполный рабочий день” (employees, each of whom is both temporary and part-time). В данном примере может быть пропущено существительное «employee», к которому может относиться прилагательное (один из однородных членов) «temporary». Подобный вид сочинительной связи в словосочетании может являться субъектом эллиптической связи.[00116] Another example of syntactic ambiguity is the phrase “temporary and part-time employees”. Based on the first, most likely semantic structure, the translation may sound like “temporarily employed employees” and “employees who are temporary or employees who are part-time.” Based on the second semantic structure, the translation sounds like “Employees who are employed temporarily on a part-time basis.” (Employees, each of whom is both temporary and part-time). In this example, the noun “employee”, which may include the adjective (one of the homogeneous members), “temporary ". A similar kind of word-for-word connection combination may be the subject of an elliptical connection.

[00117] Фиг. 16 иллюстрирует блок-схему синтеза перевода. Согласно блок-схеме перевод осуществляется на основе семантических структур (1600). Далее на этапе 1610 происходит построение поверхностных структур на основе синтаксических (102), лексических (103) и семантических (104) описаний. После формирования семантических структур проводится морфологический анализ (1620) на основе морфологических (101) и лексических описаний (103). В итоге пользователю выдается результат перевода на шаге 1630.[00117] FIG. 16 illustrates a block diagram of a translation synthesis. According to the flowchart, translation is based on semantic structures (1600). Next, at step 1610, surface structures are constructed based on syntactic (102), lexical (103), and semantic (104) descriptions. After the formation of semantic structures, a morphological analysis (1620) is carried out on the basis of morphological (101) and lexical descriptions (103). As a result, the user is given the result of the transfer at step 1630.

[00118] Вернемся к примеру предложения, содержащего синтаксическую неоднозначность: "THE POLICE SHOT THE RIOTERS WITH GUNS". Фиг. 9A и Фиг. 9Б иллюстрируют два синтаксических дерева с наибольшими интегральными оценками. На Фиг. 9А показано, что существительное "gun" лексического класса (ЛК) "ARTILLERY_AS_WEAPON" зависит от существительного "rioters" лексического класса "RIOTERS". На Фиг. 9А эта зависимость отражена стрелкой 901. Фиг. 9Б показывает второе синтаксическое дерево, согласно которому существительное "gun" ЛК класса "ARTILLERY_AS_WEAPON" зависит от глагола "shoot" ЛК "TO_KILL_BY_SHOOTING". На Фиг. 9Б эта зависимость отражена стрелкой 903. На основе синтаксических деревьев строятся соответствующие им семантические структуры, необходимые на этапе синтеза перевода. Они также будут различаться и, соответственно, передавать разный смысл исходного предложения. На Фиг. 16 показано, как на этапе синтеза перевода на русский язык образуются альтернативные варианты перевода. Первый вариант перевода, основанный на первой семантической структуре, будет звучать как "ПОЛИЦИЯ ЗАСТРЕЛИЛА ТЕРРОРИСТОВ С ОРУЖИЕМ". Согласно второй семантической структуре перевод будет иным: "ПОЛИЦИЯ ЗАСТРЕЛИЛА ТЕРРОРИСТОВ ИЗ ОРУЖИЯ". Данный пример показывает, что семантические структуры неодинаковы для различных синтаксических структур, следовательно, будут отличаться и варианты перевода, которые синтезируются на их основе. На основе анализа можно сделать вывод, что в исходном предложении - "THE POLICE SHOT THE RIOTERS WITH GUNS" - заключена неоднозначность, которая может быть выявлена с помощью описываемого изобретения.[00118] Returning to an example sentence containing syntactic ambiguity: "THE POLICE SHOT THE RIOTERS WITH GUNS". FIG. 9A and FIG. 9B illustrate the two syntax trees with the highest integral ratings. In FIG. 9A shows that the noun “gun” of the lexical class (LC) “ARTILLERY_AS_WEAPON” depends on the noun “rioters” of the lexical class “RIOTERS”. In FIG. 9A, this relationship is reflected by arrow 901. FIG. 9B shows a second syntax tree, according to which the noun “gun” of the LC of the class “ARTILLERY_AS_WEAPON” depends on the verb “shoot” of the LC of “TO_KILL_BY_SHOOTING”. In FIG. 9B, this dependence is reflected by arrow 903. Based on syntactic trees, the corresponding semantic structures are constructed that are necessary at the stage of translation synthesis. They will also vary and, accordingly, convey different meanings of the original sentence. In FIG. Figure 16 shows how, at the stage of synthesis of translation into Russian, alternative translation options are formed. The first version of the translation, based on the first semantic structure, will sound like "POLICE SHOT TERRORISTS WITH WEAPONS". According to the second semantic structure, the translation will be different: "POLICE SHOOT TERRORISTS FROM WEAPONS". This example shows that semantic structures are not the same for different syntactic structures, therefore, the translation options that are synthesized based on them will also differ. Based on the analysis, it can be concluded that the original sentence - "THE POLICE SHOT THE RIOTERS WITH GUNS" - contains an ambiguity that can be identified using the described invention.

[00119] Существует множество примеров синтаксической неоднозначности. Другим примером может служить следующее предложение: "THE YOUNG MEN AND WOMEN LEFT THE ROOM". Данное словосочетание может трактоваться как "THE (YOUNG MEN) AND WOMEN" или "THE YOUNG (MEN AND WOMEN)". В зависимости от того, к какому существительному относится прилагательное "young", будут отличаться семантические структуры, следовательно, будут различными варианты перевода на целевой язык. Данное словосочетание также может являться субъектом нереференциальных связей, в частности, эллипсиса. Словосочетания, содержащие союзы "or" или "and", и другие неоднозначности подобного рода, особенно часто встречаются в юридических актах и правовых документах, Выявление и разрешение неоднозначности в таких документах особенно актуально.[00119] There are many examples of syntactic ambiguity. Another example is the following sentence: "THE YOUNG MEN AND WOMEN LEFT THE ROOM." This phrase can be interpreted as "THE (YOUNG MEN) AND WOMEN" or "THE YOUNG (MEN AND WOMEN)". Depending on which noun the adjective "young" refers to, semantic structures will differ, therefore, there will be different variants of translation into the target language. This phrase can also be the subject of non-referential connections, in particular, ellipsis. Phrases containing unions "or" or "and", and other ambiguities of this kind, are especially common in legal acts and legal documents. Identification and resolution of ambiguity in such documents is especially relevant.

[00120] Приведем примеры неоднозначности, которые могут быть выявлены с помощью описываемого способа реализации изобретения. "НЕ GAVE HER CAT FOOD". На основе семантических структур этого примера могут быть сформированы следующие варианты перевода на русский язык: "ОН ДАЛ ЕЙ КОШАЧЬЕЙ ЕДЫ" и "ОН ДАЛ ЕЕ КОШКЕ ЕДЫ". Предложение "НЕ SAW JANE COMING ТО THE BANK" имеет четыре варианта семантических структур с одинаково высокой интегральной оценкой: "ОН УВИДЕЛ ДЖЕЙН ИДУЩЕЙ В БАНК"; "ОН УВИДЕЛ ДЖЕЙН ИДУЩЕЙ К БЕРЕГУ"; "ИДЯ В БАНК, ОН УВИДЕЛ ДЖЕЙН"; "ИДЯ К БЕРЕГУ, ОН УВИДЕЛ ДЖЕЙН".[00120] Here are examples of the ambiguity that can be identified using the described method of implementing the invention. "NOT GAVE HER CAT FOOD." Based on the semantic structures of this example, the following versions of the translation into Russian can be formed: "HE GIVED HER CAT FOOD" and "HE GIVED HER FAT CAT". The sentence “NOT SAW JANE COMING TO THE BANK” has four variants of semantic structures with an equally high integral rating: “HE SAW JANE GOING TO THE BANK”; "HE SAW JANE GOING TO THE COAST"; "GOING TO THE BANK, HE SAW JANE"; "GOING TO THE COAST, HE SAW JANE."

[00121] В альтернативных осуществлениях данного изобретения на вход могут подаваться параллельные тексты на различных языках, включая переводы одного и того же исходного документа. Например, такими документами могут быть юридические акты, соглашения и лицензии на различных языках. Может возникнуть ситуация, когда предложение или фраза в тексте будут истолкованы по-разному, в результате чего исходный документ и его переводы на иностранные языки будут нести различные смыслы.[00121] In alternative implementations of the present invention, parallel texts in various languages, including translations of the same source document, may be input. For example, such documents may be legal acts, agreements and licenses in various languages. A situation may arise when the sentence or phrase in the text will be interpreted differently, as a result of which the original document and its translations into foreign languages will have different meanings.

[00122] В другом примере осуществления система может получать на входе корпусы параллельных текстов и память переводов (из внешних источников). В связи с этим прежде, чем использовать корпуса для анализа, например, для обучения, необходимо проверить качество корпуса, а именно, прежде всего, необходимо проверить корректность выравнивания, т.е. проверить насколько предложения одного языка соответствуют по смыслу соответствующим согласно выравниванию предложениям другого языка.[00122] In another embodiment, the system may receive parallel text corpuses and translation memories (from external sources) at the input. In this regard, before using the cases for analysis, for example, for training, it is necessary to check the quality of the case, namely, first of all, it is necessary to check the correctness of alignment, i.e. check how the sentences of one language correspond in meaning to the corresponding ones according to the alignment of the sentences of another language.

[00123] Фиг. 17 показывает блок-схему альтернативного способа применения, в которой на вход поступают параллельные корпуса текстов, или параллельные документы (1710), т.е. переводы одного исходного документа на различные языки, которые требуются проанализировать с целью выявления неоднозначности. В данном случае это могут быть уже выровненные параллельные тексты или тексты, не подвергавшиеся выравниванию.[00123] FIG. 17 shows a block diagram of an alternative method of application in which parallel text bodies, or parallel documents (1710), i.e. translations of one source document into various languages that need to be analyzed in order to identify ambiguity. In this case, it can be already aligned parallel texts or texts that have not been aligned.

[00124] На этапе 1720 проводится установление соответствий между предложениями и абзацами в параллельных текстах. С этой целью может быть использован один из существующих алгоритмов выравнивания. Например, один из возможных способов выравнивания текстов описан в патентной заявке США 12/708 337 - "СПОСОБЫ И СИСТЕМЫ ДЛЯ ВЫРАВНИВАНИЯ КОРПУСОВ ПАРАЛЛЕЛЬНЫХ ТЕКСТОВ" ("METHODS AND SYSTEMS FOR ALIGNMENT OF PARALLEL TEXT CORPORA").[00124] At block 1720, correspondence between sentences and paragraphs in parallel texts is established. For this purpose, one of the existing alignment algorithms can be used. For example, one possible way to align text is described in US Patent Application 12/708 337, “METHODS AND SYSTEMS FOR ALIGNMENT OF PARALLEL TEXT CORPORA”.

[00125] После выравнивания каждый из параллельных документов обрабатывается системой независимо (1730). Для каждого из параллельных документов проводится глубинный анализ, включающий лексико-морфологический, синтаксический и семантический анализ всех предложений в документе, согласно алгоритму, описанному выше.[00125] After alignment, each of the parallel documents is processed by the system independently (1730). For each of the parallel documents, an in-depth analysis is carried out, including lexical-morphological, syntactic and semantic analysis of all sentences in the document, according to the algorithm described above.

[00126] На выходе строятся синтаксические структуры, на основе которых далее формируются независимые от языка семантические структуры (1740) для каждого предложения во всех параллельных текстах (в т.ч. в текстах на разных языках). Помимо этого на этапе семантического анализа устанавливаются референциальные связи. Одним из примеров референциальных связей может быть анафора. Разрешение анафоры - одна из наиболее трудоемких задач машинного перевода. Однако даже при ручном переводе текста некоторые анафорические связи могут быть прослежены неверно, в результате чего может исказиться смысл предложения. Благодаря описываемому способу можно проследить анафорические связи как в исходном, так и в переведенном тексте. Отличие связей в параллельных текстах будет свидетельствовать о том, что предложение содержит неоднозначность, которая при переводе была интерпретирована неверно.[00126] Syntactic structures are constructed at the output, on the basis of which further language-independent semantic structures (1740) are formed for each sentence in all parallel texts (including texts in different languages). In addition, at the stage of semantic analysis, reference relationships are established. One example of a referential relationship may be anaphora. Anaphora resolution is one of the most laborious tasks of machine translation. However, even with manual translation of the text, some anaphoric connections may not be traced correctly, as a result of which the meaning of the sentence may be distorted. Thanks to the described method, it is possible to trace the anaphoric connections both in the original and in the translated text. The difference between the links in parallel texts will indicate that the sentence contains ambiguity, which was interpreted incorrectly during the translation.

[00127] Таким образом, после проведения лексико-морфологического, синтаксического и семантического анализа, для каждого предложения в каждом из текстов на разных языках выстраиваются независимые от языка семантические структуры, отражающие исходный смысл. На этапе 1750 (Фиг. 17) выполняется сравнение семантических структур для соответствующих согласно результатам выравнивания предложений: устанавливается взаимосвязь между семантической структурой предложения в тексте на языке А с соответствующим предложением в тексте на языке Б и т.д.[00127] Thus, after conducting lexical-morphological, syntactic and semantic analysis, for each sentence in each of the texts in different languages, language-independent semantic structures are constructed that reflect the original meaning. At step 1750 (Fig. 17), the semantic structures are compared for the corresponding sentences according to the results of alignment: a relationship is established between the semantic structure of the sentence in the text in language A with the corresponding sentence in the text in language B, etc.

[00128] Различие семантических структур (1760) будет означать неоднозначность исходного предложения. Наличие неоднозначности может быть визуализировано (1770) с помощью одного из известных способов. Рекомендуется использовать способ построения недостающих дополнительных семантических структур, выявленных в процессе анализа. Также на основе полученных семантических структур может быть выполнен перевод.[00128] The difference in semantic structures (1760) will mean the ambiguity of the original sentence. The presence of ambiguity can be visualized (1770) using one of the known methods. It is recommended to use the method of constructing the missing additional semantic structures identified in the analysis process. Also, based on the obtained semantic structures, a translation can be made.

[00129] На Фиг. 18А и 18Б проиллюстрирована неоднозначность в толковании на примере предложения на английском языке: "Chickens are ready for dinner". Допустим, что в параллельном документе был сформирован следующий перевод данного предложения на русский язык - "Куры готовы поесть". Согласно описанному способу выявления неоднозначности, данное предложение будет тщательно проанализировано: проведен глубинный анализ, построены синтаксические и семантические структуры для каждого предложения. Таким образом, полученная семантическая структура (1800а) английского предложения "Chickens are ready for dinner", представленная на Фиг. 18А. В данной семантической структуре существительное "chickens" относится к лексическому классу "CHICKEN_MEAT" с глубинной позицией "Experiencer_Metaphoric". Семантическая структура (1800b) русского предложения "Куры готовы пообедать" показана на Фиг. 18Б. В данной семантической структуре существительное "куры" относится к лексическому классу "HEN_ROOSTER" с глубинной позицией "Experiencer". В результате проведения параллельного анализа текстов выявлены различающиеся семантические структуры. Различные семантические структуры параллельных предложений свидетельствуют о том, что в исходном предложении существует неоднозначность в толковании.[00129] In FIG. 18A and 18B illustrate ambiguity in interpretation by the example of a sentence in English: "Chickens are ready for dinner". Suppose that in the parallel document the following translation of this proposal into Russian was formed - "Hens are ready to eat." According to the described method for identifying ambiguity, this sentence will be carefully analyzed: an in-depth analysis is carried out, syntactic and semantic structures for each sentence are constructed. Thus, the resulting semantic structure (1800a) of the English sentence "Chickens are ready for dinner", presented in FIG. 18A. In this semantic structure, the noun "chickens" refers to the lexical class "CHICKEN_MEAT" with the deep position "Experiencer_Metaphoric". The semantic structure (1800b) of the Russian sentence “Chickens are ready to have lunch” is shown in FIG. 18B. In this semantic structure, the noun “chickens” refers to the lexical class “HEN_ROOSTER” with the deep position “Experiencer”. As a result of a parallel analysis of the texts, different semantic structures were revealed. Various semantic structures of parallel sentences indicate that there is ambiguity in interpretation in the original sentence.

[00130] Рассмотрим другой пример неоднозначности в предложении "THE SOIL SHALL BE COVERED BY FERTILIZER BEFORE IT FREEZES". Пусть имеются три предложения на трех различных языках. Первое - исходное предложение на английском языке, содержащее неоднозначность. Два других предложения - переводы на русский и немецкий языки. Если неоднозначность в исходном английском предложении не была зафиксирована в процессе перевода (человеком или системой машинного перевода), на выходе будут получены отличающиеся по смыслу предложения. Неоднозначность в исходном английском предложении заключается в том, что местоимение "it" может относиться как к существительному "soil", так и к существительному "fertilizer". По этой причине переводы на целевые языки, русский или немецкий, будет отличаться по смыслу, в зависимости от того, к какому слову будет отнесено местоимение "it". Предложения такого рода могут быть поняты по-разному разными переводчиками, вследствие чего переводы будут отличаться. В подобных случаях они будут визуализированы, как предложения, содержащие неоднозначность. Например, если при переводе местоимение "it" было отнесено к существительному "soil", перевод на русский язык (по алгоритму, представленному на Фиг. 16) будет следующим: "В ПОЧВУ НУЖНО ВНЕСТИ УДОБРЕНИЕ, ПРЕЖДЕ ЧЕМ ОНА ЗАМЕРЗНЕТ". Но местоимение "it" может быть также отнесено к существительному "fertilizer". В этом случае в переводе на немецкий язык будет получено: "DER BODEN SOLLTE MIT DUNGEMITTEL ABGEDECKT WERDEN, BEVOR ES FRIERT". Согласно описываемому изобретению, для каждого предложения в русском и немецком вариантах перевода документа строятся семантические структуры, которые отображают различные зависимости, представленные в виде недревесных связей. Пример семантической структуры для русского варианта перевода (1900) изображен на Фиг.19. Структура отображает зависимость местоимения "она" (1901) от существительного "почва" лексической категории "EARTH_AS_SUBSTANCE" (1902) в виде недревесной связи (1903). В то же время, семантическая структура перевода на немецкий язык отображает зависимость местоимения "Es" от существительного "Düngemittel". Поэтому приведенный пример демонстрирует, что исходное предложение на английском языке содержит неоднозначность, представленную в виде референциальной связи - анафоры. Данный вид неоднозначности порожден несимметричностью в разных языках. Например, в английском языке для местоимения "it", обозначающего неодушевленные предметы, в русском языке существуют местоимения "он", "она", "оно". Предложение сложно правильно перевести вне контекста и при неоднозначной зависимости этого местоимения от антецедента. Описанная система помогает обнаружить подобного рода неоднозначности в тексте и указать на них пользователю. Неоднозначность, причиной которой стала неверная пунктуация в предложении, может быть выявлена на этапе синтаксического анализа. Лексическая неоднозначность, заключающаяся в существовании у слова нескольких лексических значений, также может быть выявлена на этапе проведения лексического анализа текста.[00130] Consider another example of ambiguity in the sentence "THE SOIL SHALL BE COVERED BY FERTILIZER BEFORE IT FREEZES". Suppose there are three sentences in three different languages. The first is the original sentence in English, containing ambiguity. Two other sentences are translations into Russian and German. If the ambiguity in the original English sentence was not recorded in the translation process (by a person or by a machine translation system), the resulting sentences will be different in meaning. The ambiguity in the original English sentence is that the pronoun "it" can refer to both the noun "soil" and the noun "fertilizer". For this reason, translations into the target languages, Russian or German, will differ in meaning, depending on which word the pronoun "it" refers to. Sentences of this kind can be understood in different ways by different translators, as a result of which the translations will be different. In such cases, they will be visualized as sentences containing ambiguity. For example, if during the translation the pronoun "it" was attributed to the noun "soil", the translation into Russian (according to the algorithm shown in Fig. 16) would be as follows: "FERTILIZER MUST BE FILLED IN SOIL BEFORE IT WILL BE FREEZED." But the pronoun "it" can also be attributed to the noun "fertilizer". In this case, the translation into German will result in: "DER BODEN SOLLTE MIT DUNGEMITTEL ABGEDECKT WERDEN, BEVOR ES FRIERT". According to the described invention, for each sentence in the Russian and German versions of the translation of the document, semantic structures are constructed that display various dependencies presented in the form of non-wood connections. An example of a semantic structure for the Russian translation variant (1900) is shown in Fig. 19. The structure reflects the dependence of the pronoun "she" (1901) on the noun "soil" of the lexical category "EARTH_AS_SUBSTANCE" (1902) in the form of a non-wood connection (1903). At the same time, the semantic structure of the German translation reflects the dependence of the pronoun "Es" on the noun "Düngemittel". Therefore, the above example demonstrates that the original sentence in English contains ambiguity, presented in the form of a referential connection - anaphora. This type of ambiguity is generated by asymmetry in different languages. For example, in English for the pronoun "it", which means inanimate objects, in Russian there are pronouns "he", "she", "it". The sentence is difficult to correctly translate out of context and with the ambiguous dependence of this pronoun on the antecedent. The described system helps to detect such ambiguities in the text and indicate them to the user. The ambiguity caused by incorrect punctuation in a sentence can be identified at the stage of parsing. Lexical ambiguity, which consists in the existence of a word with several lexical meanings, can also be revealed at the stage of conducting lexical analysis of the text.

[00131] На Фиг. 20 приведена схема аппаратного обеспечения (2000), которая может быть использована для внедрения настоящего изобретения. Аппаратное средство (2000) должно включать в себя, по крайней мере, один процессор (2002) соединенный с памятью (2004). Слово "процессор" на схеме (2002) может обозначать один или несколько процессоров с одним или несколькими вычислительными ядрами, вычислительное устройство или любой иной имеющийся на рынке ЦП. Цифрами 2004 обозначается устройство оперативной памяти (RAM), являющееся основным хранилищем (2000), а также дополнительные уровни памяти - кэш, энергонезависимая, резервная память (например, программируемая или флэш-память), ПЗУ и т.д. Кроме того, обозначение памяти (2004) может подразумевать также и хранилище, расположенное в другой части системы (например, кэш процессора (2002) или иное хранилище, используемое в качестве виртуальной памяти, такое как внутреннее или внешнее ПЗУ (2010).[00131] In FIG. 20 is a hardware diagram (2000) that can be used to implement the present invention. The hardware (2000) must include at least one processor (2002) connected to the memory (2004). The word "processor" in the diagram (2002) can refer to one or more processors with one or more computing cores, a computing device, or any other CPU available on the market. The numbers 2004 indicate the device of random access memory (RAM), which is the main storage (2000), as well as additional levels of memory - cache, non-volatile, backup memory (for example, programmable or flash memory), ROM, etc. In addition, the designation of memory (2004) may also mean storage located in another part of the system (for example, the processor cache (2002) or other storage used as virtual memory, such as internal or external ROM (2010).

[00132] Аппаратное средство (2000), как правило, располагает некоторым количеством входов и выходов для передачи и получения информации извне. В качестве пользовательского или операторского интерфейса аппаратного средства (2000) может применяться одно или несколько устройств пользовательского ввода (2006), таких как клавиатура, мышь, формирователь изображений и пр., а также одно или несколько устройств вывода (жидкокристаллический дисплей или иное (2008)) и устройства воспроизведения звука (динамик).[00132] Hardware (2000) typically has a number of inputs and outputs for transmitting and receiving information from outside. As the user or operator interface of the hardware (2000), one or more user input devices (2006), such as a keyboard, mouse, imager, etc., as well as one or more output devices (liquid crystal display or other (2008), can be used ) and sound reproducing devices (speaker).

[00133] Для получения дополнительного объема для хранения данных используются накопители данных (2010), такие как дискеты или иные съемные диски, жесткие диски, ЗУ прямого доступа (DASD), оптические приводы (компакт-диски и пр.), DVD-приводы, магнитные ленточные накопители и пр. Аппаратное средство (2000) может также включать в себя интерфейс сетевого подключения (2012) - LAN, WAN, Wi-Fi, Интернет и пр. - для связи с другими компьютерами, находящимися в сети. В частности, можно использовать локальную сеть (LAN) или беспроводную сеть Wi-Fi, не подключенную ко всемирной сети Интернет. Необходимо учесть, что аппаратное средство (2000) также включает в себя различные аналоговые и цифровые интерфейсы соединения процессора (2002) и других компонентов системы (2004, 2006, 2008, 2010 и 2012).[00133] To obtain additional storage capacity, data storage devices (2010) are used, such as floppy disks or other removable disks, hard disks, direct access memory (DASD), optical drives (CDs, etc.), DVD drives, magnetic tape drives, etc. Hardware (2000) may also include a network connection interface (2012) - LAN, WAN, Wi-Fi, the Internet, etc. - to communicate with other computers on the network. In particular, you can use a local area network (LAN) or a wireless Wi-Fi network that is not connected to the world wide Internet. It should be noted that the hardware (2000) also includes various analog and digital interfaces for connecting the processor (2002) and other system components (2004, 2006, 2008, 2010 and 2012).

[00134] Аппаратное средство (2000) работает под управлением Операционной Системы (ОС) (2014), которая запускает различные приложения, компоненты, программы, объекты, модули, и пр. с целью осуществления описанного здесь процесса. В состав прикладного ПО должно быть включено приложение по выявлению семантической неоднозначности языка.[00134] The hardware (2000) is running an Operating System (OS) (2014) that runs various applications, components, programs, objects, modules, etc., for the purpose of implementing the process described herein. The composition of the application software should include an application to identify the semantic ambiguity of the language.

Также могут быть включены клиентский словарь, приложение для автоматизированного перевода и прочие установленные приложения для отображения тестового и графического содержимого (текстовый процессор и пр). Помимо этого приложения, компоненты, программы и иные объекты, собирательно обозначенные числом 2016 на Фиг. 20, могут также запускаться на процессорах других компьютеров, соединенных с аппаратным обеспечением (2000) по сети (2012). В частности, задачи и функции компьютерной программы могут распределяться между компьютерами в распределенной вычислительной среде.A client dictionary, an application for automated translation and other installed applications for displaying test and graphic content (word processor, etc.) can also be included. In addition to this application, components, programs and other objects collectively indicated by the number 2016 in FIG. 20 may also be run on processors of other computers connected to hardware (2000) over a network (2012). In particular, the tasks and functions of a computer program can be distributed between computers in a distributed computing environment.

[00135] Все рутинные операции по применению осуществлений могут выполняться операционной системой или отдельными приложениями, компонентами, программами, объектами, модулями или последовательными инструкциями, обобщенно именуемыми "компьютерными программами". Обычно компьютерные программы представляют собой ряд инструкций, выполняемых в разное время разными устройствами памяти и хранения данных на компьютере. После прочтения и выполнения инструкций процессоры выполняют операции необходимые для запуска элементов описанного осуществления. Несколько вариантов осуществлений было описано в контексте полностью функционирующих компьютеров и компьютерных систем. Специалисты отрасли по достоинству оценят возможности распространения некоторых модификаций в форме различных программных продуктов на любых типах информационных носителей. Примерами таких носителей являются как энергозависимые, так и энергонезависимые устройства памяти, такие как дискеты и другие съемные диски, жесткие диски, оптические диски (напр., CD-ROM, DVD, флэш-диски) и многое другое. Также программный пакет может быть загружен через Интернет.[00135] All routine operations for implementing implementations may be performed by the operating system or by individual applications, components, programs, objects, modules, or sequential instructions, collectively referred to as "computer programs". Typically, computer programs are a series of instructions executed at different times by different memory and data storage devices on a computer. After reading and following the instructions, the processors perform the operations necessary to run the elements of the described implementation. Several embodiments have been described in the context of fully functioning computers and computer systems. Industry experts will appreciate the ability to distribute certain modifications in the form of various software products on any type of information media. Examples of such media are both volatile and non-volatile memory devices such as floppy disks and other removable disks, hard disks, optical disks (e.g. CD-ROMs, DVDs, flash drives) and much more. Also, the software package can be downloaded over the Internet.

[00136] В вышеизложенном описании множество конкретных деталей изложено исключительно для пояснения. Специалистам в данной области техники очевидно, что эти конкретные детали являются лишь примерами. В других случаях структуры и устройства показаны только в виде блок-схемы во избежание неоднозначности толкований.[00136] In the foregoing description, many specific details are set forth for illustrative purposes only. Those skilled in the art will appreciate that these specific details are merely examples. In other cases, structures and devices are shown only in block diagram form in order to avoid ambiguity in interpretation.

[00137] Приводимые в данном описании ссылки на «один вариант осуществления/ реализации» или «вариант осуществления/реализации» означают, что конкретный признак, структура или характеристика, описанные для варианта реализации, являются компонентом по меньшей мере одного варианта реализации. Использование фразы «в одном варианте реализации» в различных фрагментах описания не означает, что описания относятся к одному и тому же варианту реализации либо что эти описания относятся к различным или альтернативным, взаимно исключающим вариантам реализации. Кроме того, различные описания характеристик могут относиться к некоторым вариантам реализации, но не относиться к другим вариантам реализации. Различные описания требований могут относиться к некоторым вариантам реализации и не относиться к другим вариантам реализации.[00137] The references in this description to “one embodiment / implementation” or “embodiment / implementation” mean that a particular feature, structure, or characteristic described for an embodiment is a component of at least one embodiment. The use of the phrase “in one embodiment” in different fragments of the description does not mean that the descriptions refer to the same implementation variant or that these descriptions refer to different or alternative mutually exclusive variants of implementation. In addition, various descriptions of characteristics may relate to some implementation options, but not to relate to other implementation options. Various descriptions of requirements may relate to some implementation options and may not relate to other implementation options.

[00138] Некоторые образцы вариантов реализации были описаны и показаны на прилагаемых иллюстрациях. Однако необходимо понимать, что такие варианты реализации являются просто примерами, но не ограничениями описываемых вариантов реализации, и что эти варианты реализации не ограничиваются конкретными показанными и описанными конструкциями и устройствами, поскольку специалисты в данной области техники на основе приведенных материалов могут создать собственные варианты реализации. В области технологии, к которой относится настоящее изобретение, быстрое развитие и дальнейшие достижения сложно прогнозировать, поэтому описываемые варианты реализации могут быть с легкостью изменены в устройстве и деталях благодаря развитию технологии, с соблюдением при этом принципов настоящего описываемого изобретения.[00138] Some examples of embodiments have been described and shown in the accompanying illustrations. However, it must be understood that such implementations are merely examples, but not limitations of the described implementations, and that these implementations are not limited to the specific structures and devices shown and described, as those skilled in the art can create their own implementations based on the above materials. In the field of technology to which the present invention relates, rapid development and further advances are difficult to predict, therefore the described embodiments can be easily changed in the device and details due to the development of technology, while respecting the principles of the present described invention.

Claims (60)

1. Способ обнаружения языковой неоднозначности, включающий:1. A method for detecting language ambiguity, including: анализ, с использованием одного или нескольких процессоров, предложения первого текста с целью определения синтаксических связей между обобщенными составляющими предложения;analysis, using one or more processors, of the sentence of the first text in order to determine the syntactic relationships between the generalized components of the sentence; построение графа обобщенных составляющих предложения на основе синтаксических связей и лексико-морфологической структуры предложения;building a graph of generalized components of the sentence based on syntactic relationships and the lexical-morphological structure of the sentence; анализ графа с целью выявления множества синтаксических структур предложения;graph analysis to identify many syntactic structures of sentences; присвоение оценок каждой из множества синтаксических структур, описывающих вероятность того, что данная синтаксическая структура является верной гипотезой о полной синтаксической структуре предложения;assignment of estimates to each of the many syntactic structures describing the likelihood that the given syntactic structure is a valid hypothesis about the complete syntactic structure of the sentence; построение семантических структур, соответствующих синтаксическим структурам;the construction of semantic structures corresponding to syntactic structures; выявление первой и второй семантических структур из множества семантических структур, где первая и вторая семантические структуры представляют собой соответствующие структуры, каждая из которых имеет оценки не ниже порогового значения, и где первая семантическая структура отлична от второй семантической структуры; а такжеidentification of the first and second semantic structures from the set of semantic structures, where the first and second semantic structures are corresponding structures, each of which has ratings not lower than a threshold value, and where the first semantic structure is different from the second semantic structure; as well as установление семантической неоднозначности в предложении на основе анализа различий между двумя семантическими структурами.establishing semantic ambiguity in a sentence based on an analysis of the differences between the two semantic structures. 2. Способ по п. 1, в котором семантические структуры представляют смысл исходного предложения и не зависят от языка.2. The method of claim 1, wherein the semantic structures represent the meaning of the original sentence and are language independent. 3. Способ по п. 1, дополнительно включающий определение различий между первой и второй семантическими структурами путем сопоставления первого вектора значений, соответствующего первой семантической структуре, и второго вектора значений, соответствующего второй семантической структуре, где каждый вектор значений включает в себя, по меньшей мере: один из семантических классов соответствующей ему семантической структуры; число глубинных позиций, присвоенных обобщенным составляющим в семантической структуре; число недревесных связей, восстановленных в соответствующей семантической структуре, и весовое значение.3. The method according to p. 1, further comprising determining the differences between the first and second semantic structures by matching the first vector of values corresponding to the first semantic structure and the second vector of values corresponding to the second semantic structure, where each vector of values includes at least : one of the semantic classes of the corresponding semantic structure; the number of deep positions assigned by the generalized components in the semantic structure; the number of non-wood relationships restored in the corresponding semantic structure, and weight value. 4. Способ по п. 1, дополнительно включающий:4. The method according to p. 1, further comprising: выравнивание предложения первого текста и предложения второго текста с целью установить взаимосвязи между предложениями первого и второго текста, где второй текст является переводом первого текста на иностранный язык;alignment of the sentence of the first text and the sentence of the second text in order to establish the relationship between the sentences of the first and second text, where the second text is a translation of the first text into a foreign language; построение семантических структур, соответствующих предложению второго текста;the construction of semantic structures corresponding to the sentence of the second text; сравнение семантических структур, соответствующих предложению из первого текста, и семантических структур второго текста с целью определения разницы между семантическими структурами первого текста и семантическими структурами второго текста, а такжеcomparing the semantic structures corresponding to the sentence from the first text and the semantic structures of the second text in order to determine the difference between the semantic structures of the first text and the semantic structures of the second text, and выявление неоднозначности в предложении из первого текста путем определения разницы между семантической структурой, соответствующей предложению первого текста, и семантической структурой предложения из второго текста.identifying the ambiguity in a sentence from the first text by determining the difference between the semantic structure corresponding to the sentence of the first text and the semantic structure of the sentence from the second text. 5. Способ по п. 1, дополнительно включающий визуализацию предложения с помощью пользовательского интерфейса, где визуализация предложения возникает на основе обнаружения семантической неоднозначности текста в предложении.5. The method according to claim 1, further comprising visualizing the sentence using the user interface, where the visualization of the sentence arises based on the detection of semantic ambiguity of the text in the sentence. 6. Способ по п. 5, в котором визуализация предложения включает в себя выделение, по крайней мере, одного слова, предложения, фразы или параграфа, в которых обнаружена неоднозначность.6. The method according to claim 5, in which the visualization of the sentence includes the selection of at least one word, sentence, phrase or paragraph in which the ambiguity is detected. 7. Способ по п. 1, дополнительно включающий:7. The method according to p. 1, further comprising: синтез перевода предложения и его альтернативного перевода с учетом семантической неоднозначности; а такжеsynthesis of the translation of a sentence and its alternative translation taking into account semantic ambiguity; as well as вывод перевода предложения и его альтернативного перевода с помощью средств пользовательского интерфейса.output translation of the proposal and its alternative translation using the user interface. 8. Способ по п. 1, в котором граф является ациклическим графом, вершины которого обобщены таким образом, что каждый из них содержит альтернативные лексические значения слов в предложении, а дуги изображают отношения между лексическими значениями.8. The method according to claim 1, in which the graph is an acyclic graph, the vertices of which are summarized in such a way that each of them contains alternative lexical meanings of words in a sentence, and the arcs depict the relationship between lexical meanings. 9. Способ по п. 1, в котором граф представляет предложение полностью.9. The method according to p. 1, in which the graph represents the proposal in full. 10. Система обнаружения языковой неоднозначности, включающая: один или несколько процессоров, настроенных на:10. A language ambiguity detection system, including: one or more processors configured to: анализ предложения первого текста с целью определения синтаксической связей между обобщенными составляющими предложения;analysis of the sentence of the first text in order to determine the syntactic relationships between the generalized components of the sentence; построение графа составляющих предложения на основе синтаксических связей и лексико-морфологической структуры предложения;building a graph of the components of the sentence based on syntactic relationships and the lexical and morphological structure of the sentence; анализ графа с целью выявления множества синтаксических структур предложения;graph analysis to identify many syntactic structures of sentences; присвоение оценок каждой из множества синтаксических структур, описывающих вероятность того, что данная синтаксическая структура является верной гипотезой о полной синтаксической структуре предложения;assignment of estimates to each of the many syntactic structures describing the likelihood that the given syntactic structure is a valid hypothesis about the complete syntactic structure of the sentence; построение семантических структур, соответствующих синтаксическим структурам;the construction of semantic structures corresponding to syntactic structures; выявление первой и второй семантических структур из множества семантических структур, где первая и вторая семантические структуры представляют собой соответствующие структуры, каждая из которых имеет оценку не ниже порогового значения, и где первая семантическая структура отлична от второй семантической структуры; а такжеidentification of the first and second semantic structures from the set of semantic structures, where the first and second semantic structures are corresponding structures, each of which has an estimate not lower than a threshold value, and where the first semantic structure is different from the second semantic structure; as well as установление семантической неоднозначности предложения на основе анализа различий между двумя семантическими структурами.establishment of semantic ambiguity of a sentence based on the analysis of differences between two semantic structures. 11. Система по п. 10, в которой семантические структуры представляют смысл исходного предложения и не зависят от языка.11. The system of claim 10, wherein the semantic structures represent the meaning of the original sentence and are language independent. 12. Система по п. 10, в которой один или несколько процессоров настроены для определения различий между первой и второй семантическими структурами путем сопоставления первого вектора значений, соответствующего первой семантической структуре, и второго вектора значений, соответствующего второй семантической структуре, где каждый вектор значений включает в себя, по крайней мере: один из семантических классов соответствующей ему семантической структуры; число глубинных позиций, присвоенных обобщенным составляющим в семантической структуре; число недревесных связей, восстановленных в соответствующей семантической структуре, а также весовое значение.12. The system of claim 10, wherein one or more processors are configured to determine differences between the first and second semantic structures by matching the first vector of values corresponding to the first semantic structure and the second vector of values corresponding to the second semantic structure, where each vector of values includes in itself, at least: one of the semantic classes of the corresponding semantic structure; the number of deep positions assigned by the generalized components in the semantic structure; the number of non-wood links restored in the corresponding semantic structure, as well as the weight value. 13. Система по п. 10, в которой один или несколько процессоров настроены на:13. The system of claim 10, wherein one or more processors are configured to: выравнивание предложения первого текста и предложения второго текста с целью установки взаимосвязи между предложениями первого и второго текста, где второй текст является переводом первого текста на иностранный язык;alignment of the sentence of the first text and the sentence of the second text in order to establish the relationship between the sentences of the first and second text, where the second text is a translation of the first text into a foreign language; построение семантических структур, соответствующих предложению второго текста;the construction of semantic structures corresponding to the sentence of the second text; сравнение семантических структур, соответствующих предложению из первого текста, и семантических структур второго текста с целью определения разницы между семантическими структурами первого текста и семантическими структурами второго текста; а такжеcomparing the semantic structures corresponding to the sentence from the first text and the semantic structures of the second text in order to determine the difference between the semantic structures of the first text and the semantic structures of the second text; as well as выявление неоднозначности в предложении из первого текста путем определения разницы между семантической структурой, соответствующей предложению первого текста, и семантической структурой предложения из второго текста.identifying the ambiguity in a sentence from the first text by determining the difference between the semantic structure corresponding to the sentence of the first text and the semantic structure of the sentence from the second text. 14. Система по п. 10, в которой один или несколько процессоров настроены на визуализацию предложения с помощью пользовательского интерфейса, где визуализация предложения возникает на основе обнаружения семантической неоднозначности текста в предложении.14. The system of claim 10, wherein one or more processors are configured to render the sentence using a user interface, where the sentence visualization arises based on the detection of semantic ambiguity of the text in the sentence. 15. Система по п. 10, в которой один или несколько процессоров настроены на:15. The system of claim 10, wherein one or more processors are configured to: синтез перевода предложения и его альтернативного перевода с учетом семантической неоднозначности; а такжеsynthesis of the translation of a sentence and its alternative translation taking into account semantic ambiguity; as well as вывод перевода предложения и его альтернативного перевода с помощью средств пользовательского интерфейса.output translation of the proposal and its alternative translation using the user interface. 16. Система по п. 10, в которой граф является ациклическим графом, вершины которого обобщены таким образом, что каждая из них содержит альтернативные лексические значения слов в предложении, а дуги изображают отношения между лексическими значениями.16. The system of claim 10, wherein the graph is an acyclic graph, the vertices of which are summarized in such a way that each of them contains alternative lexical meanings of words in a sentence, and arcs depict relations between lexical meanings. 17. Энергонезависимый машиночитаемый носитель информации, содержащий следующие команды:17. Non-volatile computer-readable storage medium containing the following commands: команды по анализу предложения первого текста с целью определения синтаксической связей между обобщенными составляющими предложения;teams to analyze the sentence of the first text in order to determine the syntactic relationships between the generalized components of the sentence; команды по построению графа обобщенных составляющих предложения на основе синтаксических связей и лексико-морфологической структуры предложения;teams for constructing a graph of generalized components of a sentence based on syntactic relationships and the lexical-morphological structure of the sentence; команды по анализу графа с целью выявления множественных синтаксических структур предложения;graph analysis teams to identify multiple syntactic sentence structures; команды по присвоению оценки множеству синтаксических структур, описывающей вероятность того, что синтаксическая структура подтверждает гипотезу о полной синтаксической структуре предложения;instructions for assigning an assessment to a plurality of syntactic structures describing the probability that the syntactic structure confirms the hypothesis of the complete syntactic structure of the sentence; команды по построению семантических структур, соответствующих синтаксическим структурам;commands for constructing semantic structures corresponding to syntactic structures; команды по выявлению первой и второй семантических структур из множества семантических структур, где первая и вторая семантические структуры представляют собой соответствующие структуры, каждая из которых имеет оценки не ниже порогового значения, и где первая семантическая структура отлична от второй семантической структуры; а такжеteams to identify the first and second semantic structures from the set of semantic structures, where the first and second semantic structures are corresponding structures, each of which has ratings not lower than a threshold value, and where the first semantic structure is different from the second semantic structure; as well as команды по установлению семантической неоднозначности предложения на основе анализа различий между двумя семантическими структурами.Teams for establishing semantic ambiguity of sentences based on the analysis of differences between the two semantic structures. 18. Энергонезависимый машиночитаемый носитель информации по п. 17, содержащий:18. Non-volatile machine-readable storage medium according to claim 17, containing: команды по определению различий между первой и второй семантическими структурами путем сопоставления первого вектора значений, соответствующего первой семантической структуре, и второго вектора значений, соответствующего второй семантической структуре, где каждый вектор значений включает в себя, по крайней мере: один из семантических классов соответствующей семантической структуры; число глубинных позиций, присвоенных обобщенным составляющим в семантической структуре; число недревесных связей, восстановленных в соответствующей семантической структуре, а также весовое значение.teams to determine the differences between the first and second semantic structures by comparing the first vector of values corresponding to the first semantic structure and the second vector of values corresponding to the second semantic structure, where each vector of values includes at least: one of the semantic classes of the corresponding semantic structure ; the number of deep positions assigned by the generalized components in the semantic structure; the number of non-wood links restored in the corresponding semantic structure, as well as the weight value. 19. Энергонезависимый машиночитаемый носитель информации по п. 18, содержащий:19. A non-volatile computer-readable storage medium according to claim 18, comprising: команды по выравниванию предложения первого текста и предложения второго текста с целью установки взаимосвязи между предложениями первого и второго текста, где второй текст является переводом первого на иностранный язык;teams to align the sentences of the first text and the sentences of the second text in order to establish the relationship between the sentences of the first and second text, where the second text is a translation of the first into a foreign language; команды по построению семантических структур, соответствующих предложению второго текста;teams for the construction of semantic structures corresponding to the sentence of the second text; команды по сравнению семантических структур, соответствующих предложению из первого текста, и семантических структур второго текста с целью определения разницы между семантическими структурами первого текста и семантическими структурами второго текста; а такжеcommands for comparing the semantic structures corresponding to the sentence from the first text and the semantic structures of the second text in order to determine the difference between the semantic structures of the first text and the semantic structures of the second text; as well as команды по выявлению неоднозначности в предложении из первого текста путем определения разницы между семантической структурой, соответствующей предложению первого текста, и семантической структурой предложения из второго текста.teams to identify the ambiguity in the sentence from the first text by determining the difference between the semantic structure corresponding to the sentence of the first text and the semantic structure of the sentence from the second text. 20. Энергонезависимый машиночитаемый носитель информации по п. 18, содержащий:20. A non-volatile computer-readable storage medium according to claim 18, comprising: команды по синтезу перевода предложения и его альтернативного перевода с учетом семантической неоднозначности; а такжеteams for the synthesis of the translation of the sentence and its alternative translation, taking into account semantic ambiguity; as well as команды по выводу перевода предложения и его альтернативного перевода с помощью средств пользовательского интерфейса.commands for the withdrawal of the translation of the proposal and its alternative translation using the user interface.
RU2013157757A 2006-10-10 2013-12-25 Detection of linguistic ambiguity in a text RU2643438C2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2013157757A RU2643438C2 (en) 2013-12-25 2013-12-25 Detection of linguistic ambiguity in a text
US14/509,438 US9984071B2 (en) 2006-10-10 2014-10-08 Language ambiguity detection of text

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2013157757A RU2643438C2 (en) 2013-12-25 2013-12-25 Detection of linguistic ambiguity in a text

Publications (2)

Publication Number Publication Date
RU2013157757A RU2013157757A (en) 2015-06-27
RU2643438C2 true RU2643438C2 (en) 2018-02-01

Family

ID=53497320

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2013157757A RU2643438C2 (en) 2006-10-10 2013-12-25 Detection of linguistic ambiguity in a text

Country Status (1)

Country Link
RU (1) RU2643438C2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2769427C1 (en) * 2021-04-05 2022-03-31 Анатолий Владимирович Буров Method for automated analysis of text and selection of relevant recommendations to improve readability thereof
WO2023204724A1 (en) * 2022-04-20 2023-10-26 Общество С Ограниченной Ответственностью "Дентонс Юроп" (Ооо "Дентонс Юроп") Method for analyzing a legal document

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5099425A (en) * 1988-12-13 1992-03-24 Matsushita Electric Industrial Co., Ltd. Method and apparatus for analyzing the semantics and syntax of a sentence or a phrase
US20050075859A1 (en) * 2003-10-06 2005-04-07 Microsoft Corporation Method and apparatus for identifying semantic structures from text
US20080086300A1 (en) * 2006-10-10 2008-04-10 Anisimovich Konstantin Method and system for translating sentences between languages
US20080091405A1 (en) * 2006-10-10 2008-04-17 Konstantin Anisimovich Method and system for analyzing various languages and constructing language-independent semantic structures
US20100332217A1 (en) * 2009-06-29 2010-12-30 Shalom Wintner Method for text improvement via linguistic abstractions
RU2480822C2 (en) * 2007-08-31 2013-04-27 Майкрософт Корпорейшн Coreference resolution in ambiguity-sensitive natural language processing system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5099425A (en) * 1988-12-13 1992-03-24 Matsushita Electric Industrial Co., Ltd. Method and apparatus for analyzing the semantics and syntax of a sentence or a phrase
US20050075859A1 (en) * 2003-10-06 2005-04-07 Microsoft Corporation Method and apparatus for identifying semantic structures from text
US20080086300A1 (en) * 2006-10-10 2008-04-10 Anisimovich Konstantin Method and system for translating sentences between languages
US20080091405A1 (en) * 2006-10-10 2008-04-17 Konstantin Anisimovich Method and system for analyzing various languages and constructing language-independent semantic structures
RU2480822C2 (en) * 2007-08-31 2013-04-27 Майкрософт Корпорейшн Coreference resolution in ambiguity-sensitive natural language processing system
US20100332217A1 (en) * 2009-06-29 2010-12-30 Shalom Wintner Method for text improvement via linguistic abstractions

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2769427C1 (en) * 2021-04-05 2022-03-31 Анатолий Владимирович Буров Method for automated analysis of text and selection of relevant recommendations to improve readability thereof
WO2023204724A1 (en) * 2022-04-20 2023-10-26 Общество С Ограниченной Ответственностью "Дентонс Юроп" (Ооо "Дентонс Юроп") Method for analyzing a legal document

Also Published As

Publication number Publication date
RU2013157757A (en) 2015-06-27

Similar Documents

Publication Publication Date Title
US9588962B2 (en) System and method for generating and using user ontological models for natural language processing of user-provided text
US20200050638A1 (en) Systems and methods for analyzing the validity or infringment of patent claims
RU2564629C1 (en) Method of clustering of search results depending on semantics
US9626358B2 (en) Creating ontologies by analyzing natural language texts
US9727553B2 (en) System and method for generating and using user semantic dictionaries for natural language processing of user-provided text
US9047275B2 (en) Methods and systems for alignment of parallel text corpora
US8560300B2 (en) Error correction using fact repositories
KR101306667B1 (en) Apparatus and method for knowledge graph stabilization
US10210249B2 (en) Method and system of text synthesis based on extracted information in the form of an RDF graph making use of templates
US20150278197A1 (en) Constructing Comparable Corpora with Universal Similarity Measure
US9984071B2 (en) Language ambiguity detection of text
US20190392035A1 (en) Information object extraction using combination of classifiers analyzing local and non-local features
US10303770B2 (en) Determining confidence levels associated with attribute values of informational objects
Harris et al. Generating formal hardware verification properties from natural language documentation
Rigouts Terryn et al. HAMLET: hybrid adaptable machine learning approach to extract terminology
US20190065453A1 (en) Reconstructing textual annotations associated with information objects
RU2563148C2 (en) System and method for semantic search
RU2643438C2 (en) Detection of linguistic ambiguity in a text
KR101663038B1 (en) Entity boundary detection apparatus in text by usage-learning on the entity&#39;s surface string candidates and mtehod thereof
Kaljurand et al. Collaborative multilingual knowledge management based on controlled natural language
Mitrpanont et al. TH_WSD: Thai word sense disambiguation using cross-language knowledge sources approach
Horvat Hierarchical statistical semantic translation and realization
Sankaravelayuthan et al. A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam
Alosaimy Ensemble Morphosyntactic Analyser for Classical Arabic
Gupta et al. Identification and extraction of multiword expressions from Hindi & Urdu language in natural language processing

Legal Events

Date Code Title Description
HZ9A Changing address for correspondence with an applicant
QB4A Licence on use of patent

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20201211

QC41 Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20220311