RU2665239C2 - Автоматическое извлечение именованных сущностей из текста - Google Patents

Автоматическое извлечение именованных сущностей из текста Download PDF

Info

Publication number
RU2665239C2
RU2665239C2 RU2014101126A RU2014101126A RU2665239C2 RU 2665239 C2 RU2665239 C2 RU 2665239C2 RU 2014101126 A RU2014101126 A RU 2014101126A RU 2014101126 A RU2014101126 A RU 2014101126A RU 2665239 C2 RU2665239 C2 RU 2665239C2
Authority
RU
Russia
Prior art keywords
attributes
subset
semantic
token
syntactic
Prior art date
Application number
RU2014101126A
Other languages
English (en)
Other versions
RU2014101126A (ru
Inventor
Илья Владимирович Нехай
Original Assignee
Общество с ограниченной ответственностью "Аби Продакшн"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью "Аби Продакшн" filed Critical Общество с ограниченной ответственностью "Аби Продакшн"
Priority to RU2014101126A priority Critical patent/RU2665239C2/ru
Priority to US14/508,419 priority patent/US9588960B2/en
Publication of RU2014101126A publication Critical patent/RU2014101126A/ru
Application granted granted Critical
Publication of RU2665239C2 publication Critical patent/RU2665239C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

Изобретение относится к средствам распознавания именованных сущностей из неразмеченного текстового корпуса. Технический результат заключается в повышении эффективности распознавания и разметки именованных сущностей в текстах. Выбирают обучающий набор текстов на естественном языке. Извлекают процессором соответствующего набора признаков для каждой категории именованных сущностей. Обучают процессором модели классификации с использованием обучающего набора текстов и наборов признаков для каждой категории именованных сущностей. Извлекают процессором токенов из неразмеченного текста. Формируют процессором набора атрибутов для каждого токена неразмеченного текста на основании по меньшей мере глубокого семантико-синтаксического анализа. Определяют возможные синтаксические связи по меньшей мере в одном предложении неразмеченного текста, включающее получение множества синтаксических атрибутов. Формирование независимой от языка семантической структуры, включающее определение семантических связей и соответствующих семантических атрибутов каждого токена. Классифицируют процессором каждый токен по меньшей мере в одну из категорий на основании модели классификатора и набора атрибутов токена. Формируют процессором размеченное представление по меньшей мере части текста на основании по меньшей мере одного из токенов, классифицированных по категориям. 3 н. и 10 з.п. ф-лы, 12 ил.

Description

ПРЕДПОСЫЛКИ СОЗДАНИЯ ИЗОБРЕТЕНИЯ
[0001] Системы распознавания именованных сущностей (NER) обычно основаны на инструментах анализа текста более широкого назначения. Глубина анализа может изменяться от поверхностного лексико-морфологического анализа до интеграции системы NER с парсером (синтаксическим анализатором) текста. Используемые способы NER можно разделить на две основные категории: способы, основанные на правилах, и способы, в которых используется обучение машины.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[0002] На Фиг. 1А показаны операции обучения с использованием размеченного обучающего корпуса согласно одной из возможных реализации изобретения.
[0003] На Фиг. 1В приведено схематическое представление обученной модели согласно одной из возможных реализации изобретения.
[0004] На Фиг. 1C показаны операции для применения обученной модели к «новому» неразмеченному корпусу согласно одной из возможных реализации изобретения.
[0005] Фиг. 2 представляет собой схему, иллюстрирующую языковые описания согласно одной из возможных реализации изобретения.
[0006] Фиг. 3 представляет собой схему, иллюстрирующую морфологические описания согласно одной из возможных реализации изобретения.
[0007] Фиг. 4 представляет собой схему, иллюстрирующую синтаксические описания согласно одной из возможных реализации изобретения.
[0008] Фиг. 5 представляет собой схему, иллюстрирующую семантические описания согласно одной из возможных реализации изобретения.
[0009] Фиг. 6 представляет собой схему, иллюстрирующую лексические описания согласно одной из возможных реализации изобретения.
[0010] Фиг. 7 иллюстрирует основные этапы разбора каждого предложения в текстовом корпусе согласно одной из возможных реализации изобретения.
[0011] На Фиг. 7А показана последовательность структур данных, построенных в ходе процесса анализа согласно одной из возможных реализации изобретения.
[0012] На Фиг. 8 приведен вариант семантического и синтаксического разбора английского предложения согласно одной из возможных реализации изобретения (Передложение, названия семантический классов и идентификаторов поверхностных и глубинных позиций не переведены на русский язык. Это предложение, как и названия семантических классов и поверхностных и глубинных позиций носят иллюстративный характер и не являются частью заявки.)
[0013] На Фиг. 9 показан пример вычислительного средства, которое можно использовать согласно одной из возможных реализации изобретения.
РАСКРЫТИЕ ИЗОБРЕТЕНИЯ
Описываются системы, машиночитаемые носители и методы извлечения токенов из неразмеченного текстового корпуса. Создание набора атрибутов для каждого токена основано по меньшей мере на глубинном семантико-синтаксическом анализе. Множество атрибутов включает в себя лексические, синтаксические и семантические атрибуты. Выбор подмножества атрибутов для каждого токена. Получение атрибутов классификатора и категорий на основании обученной модели, в которой атрибуты классификатора связаны с одной или несколькими категориями. Сравнение подмножества атрибутов каждого токена с атрибутами классификатора. Классификация каждого токена не менее, чем по одной категории на основе сравнения. Создание размеченного текста на основе отнесенных к категориям токенов.
ПОДРОБНОЕ ОПИСАНИЕ
[0014] Изобретение относится к системам и способам создания онтологии и семантических описаний, в частности, к извлечению именованных сущностей (например, имен собственных) из неструктурированных текстов. Отдельной задачей извлечения информации является распознавание именованных сущностей (NER). Эта задача заключается в определении границ именованных сущностей (NE) в тексте и присвоении каждой сущности категории, как правило, из конечного множества категорий. Эффективные методы такого рода необходимы для разработки программных приложений и при решении большого количества задач обработки естественного языка и задач анализа документов, таких как машинный перевод, семантическое индексирование, семантический поиск, включая, помимо прочего, следующее: многоязычный семантический поиск, извлечение фактов, анализ отношений, классификация документов, поиск похожих документов, обобщение, анализ больших объемов данных, электронное обнаружение (eDiscovery) и т.д. Глубинный анализ текста открывает новые возможности для создания систем NER.
[0015] Для каждого лексического токена, сформированного семантическим анализатором текста, например парсером Compreno®, определяется широкий набор признаков, который может использоваться для разработки систем, основанных на использовании правил. Однако для разработки правил требуется много времени. Использование статистических методов (при предоставлении доступа к достаточному объему данных) может значительно снизить трудоемкость решения определенных задач. В настоящем изобретении к NER применяется статистический подход с использованием результатов семантического анализатора текста в качестве исходных данных.
[0016] Под именованными сущностями понимают уникальные имена, включающие следующие имена, но не ограничиваясь ими: географические названия (например, страны, населенные пункты, улицы), имена и фамилии персон, названия организаций или компаний и событий (например, памятные дни, праздники и т.д.). Поскольку именованные сущности могут быть не включены в словарь, не все именованные сущности могут быть распознаны с помощью словаря. Распознавание именованных сущностей, помимо прочего, может включать в себя выявление именованных сущностей в неструктурированном тексте, установление границ, определения референциальных связей и отнесение каждой именованной сущности к соответствующей категории. Назначенные категории могут выбираться, например, из конечного множества категорий.
[0017] Задачу выделения именованных сущностей можно разделить на две подзадачи: обнаружение именованных сущностей и классификация обнаруженных именованных сущностей. Кроме того, можно оценивать качество распознавания и классификации именованных сущностей. [0018] Референции, из которых извлекаются именованные сущности и по которым они классифицируются, могут быть аннотированы. Например, аннотация может давать размеченное представление референции. Например, исходное предложение «Adams and Platt are both injured and -will miss England's opening World Cup qualifier against Moldova on Sunday.» может породить следующее размеченное (т.е. аннотированное) представление:
[0019] <PER>Adams</PER> and <PER>Platt</PER> are both injured and will miss <LOC>England</LOC's opening <EVENT>World Cup</EVENT> qualifier against<LOC>Moldova</LOC> on <DAY>Sunday</DAY>.
[0020] Таким образом, теги <PER> и </PER> могут использоваться для обозначения персон, в частности, физических лиц, теги <LOC> и </LOC> могут обозначать геолокации, теги <EVENT> и </EVENT> могут отмечать события, а теги <DAY> и </DAY> могут определять и отмечать даты. Новые теги добавляются, если множество категорий классификации расширяется. В другом примере квалифицирующие теги могут добавляться в дополнение к тэгам категорий. Например, тег EVENT (событие) может, помимо прочего, включать такие квалификаторы, как: спортивное мероприятие, юбилей, премьера, выпуск фильма в прокат, представление, выпуск продукта и т.д. Тег PER (персоны) может, помимо прочего, включать такие квалификаторы, как: политик, знаменитость, писатель, художник и т.д. Тег LOC (местоположение) может, помимо прочего, включать такие квалификаторы, как: континент, страна, столица, город, улица и т.д.
[0021] В одном из вариантов осуществления экстрактор может быть обучен с использованием размеченного корпуса. Размеченный корпус может представлять собой предварительно аннотированный исходный текст, как в примере, приведенном выше. Исходный текст может содержать несколько категорий. Например, он может содержать категории персоны (PER), организации (ORG), геолокации (LOC), прочие именованные сущности (MISC), а также какие-то другие категории. Может создаваться другой набор исходных категорий, а в исходном тексте могут содержаться дополнительные категории. Используемые категории могут иметь разный охват, они могут содержать подкатегории. Например, категория геолокации может разбиваться на несколько подкатегорий: государства, населенные пункты, реки, горные массивы и т.д.
[0022] На Фиг. 1А показаны операции, используемые для обучения парсера с использованием размеченного текстового корпуса 101. Тексты используемого для обучения корпуса (101) разбиты на токены, и каждому токену может присваиваться та или иная категория в зависимости от тега, присвоенного этому токену. Размеченный корпус может быть подвергнут глубокому семантико-синтаксическому анализу (этап 102) без учета существующей разметки. Глубокий семантико-синтаксический анализ может сформировать атрибуты для слов, которые первоначально помечены выбранными категориями. Эти атрибуты можно сравнить с существующей разметкой (этап 103). Сравнение атрибутов с существующей разметкой можно использовать для определения того, какие атрибуты присущи объектам в данной категории.
[0023] Глубокий семантико-синтаксический анализ размеченного корпуса (этап 102) дает довольно большую выборку значений лексических, синтаксических и семантических атрибутов для каждого токена. Подмножество этих значений можно использовать при формировании признаков для классификации. В дополнение к использованию лексических признаков для классификации, синтаксические и семантические признаки также могут быть использованы для классификации. В некоторых вариантах осуществления доступность необходимых лингвистических описаний для выбранного языка может быть условием использования парсера. Необходимые лингвистические описания могут включать, помимо прочего: лексические описания, морфологические описания, синтаксические описания и семантические описания.
[0024] Можно оценить качество распознавания и классификацию именованных сущностей. Способ оценки может быть выбран заранее, например, путем настройки конфигурации парсера или по выбору пользователя парсера. Например, известный метод CoNNL обеспечивает как точность классификации, так и точность определения границ. Границы следует понимать как границы имен (например, для названия, состоящего из нескольких слов).
[0025] В одном из вариантов осуществления именованные сущности с корректно определенными границами и категориями могут быть использованы для расчета точности, полноты и F-меры. Например, точность Р и полноту R можно вычислить следующим образом:
Figure 00000001
Figure 00000002
, где число объектов равно число объектов общему количеству объектов, которые были записаны в системе, т.е. лексическим значениям, содержащимся в семантической иерархии. Эта оценка также включает в себя F-меру:
Figure 00000003
.
В другом варианте осуществления также может использоваться следующая формула:
Figure 00000004
, где β выбирается в зависимости от каждой конкретной задачи.
[0026] Множество признаков классификации может формироваться (этап 104) на основании результатов сравнения наборов признаков. Для сравнения может использоваться методология оценки NER, основанная на измерении показателей точности, полноты и F-меры. При сравнении могут применяться интегральные оценки F-меры. Интегральная оценка F-меры может быть получена путем микроусреднения по всем категориям.
[0027] В одном варианте осуществления набор признаков классификации может быть получен в процессе обучения с помощью размеченного корпуса. Полученное множество признаков классификации может быть использовано для обучения (105) модели именованных сущностей. Результатом является обученная модель (этап 106).
[0028] На Фиг. 1В приведено схематическое представление обученной модели в соответствии с одним вариантом осуществления. Обученная модель представляет собой совокупность множества признаков (111) с соответствующими весами (112), относящимися к категориям классификации (113). Помимо прочего могут использоваться дополнительные модели, такие как: модели условных случайных полей (CRF), скрытые марковские модели (НММ), марковские модели максимальной энтропии (МЕММ) и другие схожие варианты обучающих моделей.
[0029] В одном варианте осуществления можно использовать «внешние» списки именованных сущностей. В другом варианте осуществления «внешние» списки именованных сущностей не используются, что позволяет оценить парсер в «чистой» форме. Если «внешние списки» не используются, то опубликованные значения F-меры, которые были получены исследователями без использования внешних списков, могут быть выбраны для сравнения с результатами. Все использованные признаки являются локальными, то есть рассматривается только текущий токен, его ближайший линейный и контекст дерева, а также родительский токен (например, согласно дереву разбора), который в тексте может быть находиться на существенном расстоянии. Также могут использоваться синтаксические и семантические параметры, выбранные в процессе синтаксического анализа.
[0030] В еще одном варианте осуществления могут использоваться нелокальные признаки и внешние данные; нелокальные признаки и внешние данные могут включать в себя, например, то, всегда ли токен задается в нижнем регистре, тегирован ли данный токен в каком-либо другом месте в наборе документов, включен ли данный токен во внешнюю базу данных и т.д.
[0031] На Фиг. 1C иллюстрируются операции для применения обученной модели к «новому» неразмеченному корпусу (121) согласно одной из возможных реализации изобретения. Неразмеченный корпус также подвергается глубокому семантико-синтаксическому анализу (122), в ходе которого для каждого токена определяется достаточно большое множество значений лексических, синтаксических и семантических атрибутов. Подробное описание семантико-синтаксического анализа (122) приведено в патенте США №8,078,450; он характеризуется использованием широкого диапазона лингвистических описаний, в том числе значений лексических, морфологических, синтаксических и семантических категорий, которые извлекаются (т.е. обнаруживаются) в ходе анализа. Определенное подмножество лингвистических описаний, включая лексические признаки, синтаксические признаки и семантические признаки, может использоваться для формирования признаков классификатора. Описание множества упомянутых лингвистических описаний и деталей отдельных этапов семантико-синтаксического анализа приведено ниже.
[0032] Фиг. 2 представляет собой схему, иллюстрирующую языковые описания (210) согласно одной из возможных реализации изобретения. Языковые описания (210), помимо прочего, могут включать следующее: морфологические описания (201), синтаксические описания (202), лексические описания (203) и семантические описания (204), а также взаимосвязь между языковыми описаниями. Морфологические описания (201), лексические описания (203), а также синтаксические описания (202) могут зависеть от конкретного языка. Каждое из языковых описаний (210) может быть создано для каждого исходного языка и в совокупности языковые описания представляют собой модель исходного языка. Однако семантические описания (204) могут быть независимыми от языка и используются для описания независимых от языка семантических признаков различных языков и построения независимых от языка семантических структур.
[0033] Как показано на Фиг. 2, морфологические описания (201), лексические описания (203), синтаксические описания (202), а также семантические описания (204) связаны между собой. На Фиг. 2 лексические описания (204) и морфологические описания (201) связаны при помощи связи (221), показывающей, что указанное лексическое значение в лексическом описании (230) имеет морфологическую модель, описывающую возможные грамматические значения для указанного лексического значения. Например, одно или несколько грамматических значений могут быть представлены различными наборами граммем в грамматической системе морфологических описаний (101).
[0034] Кроме того, как показано связью (222), заданное лексическое значение в лексических описаниях (203) также может иметь одну или несколько поверхностных моделей, соответствующих синтаксическим описаниям (202) для данного лексического значения. Как показано связью (223), лексические описания (203) могут быть связаны с семантическими описаниями (204). Таким образом, лексические описания (203) и семантические описания (204) могут быть объединены в «лексико-семантические описания», например, в лексико-семантический словарь.
[0035] Связь (224) показывает отношение между синтаксическими описаниями (240) и семантическими описаниями (204). Например, диатезы (417) синтаксических описаний (202) можно рассматривать как «интерфейс» между зависящими от языка поверхностными моделями и независимыми от языка глубинными моделями (512) семантического описания (204).
[0036] Фиг. 3 представляет собой схему, иллюстрирующую морфологические описания согласно одной из возможных реализации изобретения. Компоненты морфологических описаний (201), помимо прочего, включают: описание словоизменения (310), грамматическую систему (320), и описания словообразования (330), и т.п. Грамматическая система (320) представляет собой набор грамматических категорий, включая, помимо прочего: «часть речи», «падеж», «пол», «число», «лицо», «рефлексивность», «время», «вид» и т.д. и их значения (далее - «граммемы»), включая, например, прилагательное, существительное, глагол, именительный, винительный и родительный падежи, женский, мужской и средний род и т.д.
[0037] Описание словоизменения (310) описывает, как может изменяться основная форма слова в зависимости, например, от падежа слова, пола, числа, времени и т.д. и в широком смысле оно может включать или описывать все возможные формы этого слова. Описание словообразования (330) описывает, какие новые слова могут быть созданы с участием этого слова (например, в немецком языке имеется очень много сложных слов). Граммемы являются единицами грамматической системы (320), что показано с помощью связи (222) и связи (324) на Фиг. 3. Граммемы могут использоваться, например, для построения описания словоизменения (310) и описания словообразования (330).
[0038] В одном варианте осуществления модель составляющих используется для установления синтаксических отношений между элементами исходного предложения. Составляющая может содержать непрерывную группу слов, причем в предложении составляющая рассматривается как единая сущность. Составляющая имеет некоторое слово в качестве ядра, и может включать в себя дочерние составляющие на более низких уровнях. Дочерняя составляющая является зависимой составляющей, и может быть прикреплена к другим составляющим (как родительским составляющим) для построения синтаксических описаний (202) исходного предложения.
[0039] Фиг. 4 иллюстрирует синтаксические описания. Компоненты синтаксических описаний (202), помимо прочего, могут включать: поверхностные модели (410), описания поверхностных позиций (420), описания референциального и структурного контроля (430), описания управления и согласования (440), описания недревесного синтаксиса (450), а также правила анализа (460). Синтаксические описания (202) могут использоваться для построения возможных синтаксических структур исходного предложения на данном исходном языке с учетом свободного линейного порядка слов, недревесных синтаксических явлений (например, координация, эллипсис и т.д.), референциальные отношения и другие отношения.
[0040] Поверхностные модели (410) представлены в виде агрегатов одной или нескольких синтаксических форм («синтформ» (412)), чтобы описать возможные синтаксические структуры предложений которые включены в синтаксическое описание (202). Лексические значения языка связаны с его поверхностными (синтаксическими) моделями (410), представляющими собой модели составляющих, которые могут быть построены, если данное лексическое значение играет роль «ядра». Поверхностные модели (410), представленные «синтформами» (412), могут включать лексическое значение, которое играет роль «ядра» и может дополнительно включать набор поверхностных позиций (415) его дочерних составляющих, описание линейного порядка (416), диатезы (417), грамматические значения (414), описания управления и согласования (440), коммуникативные описания (480) и др., по отношению к ядру составляющей.
[0041] Описания поверхностных позиций (420) как часть синтаксических описаний (202) используются для описания общих свойств поверхностных позиций (415), которые используются в поверхностных моделях (410) различных лексических значений в исходном языке. Поверхностные позиции (415) могут использоваться для выражения синтаксических отношений между составляющими предложения. Примеры поверхностных позиций (415) могут включать в себя среди прочего «subject» (подлежащее), «object_direct» (прямое дополнение), «object_indirect» (косвенное дополнение), «relative clause» (определительное придаточное предложение).
[0042] В процессе синтаксического анализа модель составляющей использует несколько поверхностных позиций (415) дочерних составляющих и описания их линейного порядка (416) и описывает грамматические значения (414) возможных заполнителей этих поверхностных позиций (415). Диатезы (417) представляют соответствия между поверхностными позициями (415) и глубинными позициями (514) (как показано на Фиг. 5). Диатезы (417) представлены связью (224) между синтаксическими описаниями (202) и семантическими описаниями (204). Коммуникативные описания (480) описывают коммуникативный порядок в предложении.
[0043] Синтаксические формы («синтформы») (412) представляют собой множество поверхностных позиций (415) с описаниями их линейного порядка (416). Одна или несколько составляющих, возможных для лексического значения словоформы в исходном предложении, могут быть представлены синтаксическими поверхностными моделями (410). Каждая составляющая рассматривается как реализация модели составляющей посредством выбора соответствующей синтформы (412). Выбранные синтформы (412) представляют собой множества поверхностных позиций (415) с указанным линейным порядком. Каждая поверхностная позиция в синтформе может иметь грамматические и семантические ограничения на свои заполнители.
[0044] Описание линейного порядка (416) представлено в виде выражений линейного порядка, которые строятся, чтобы отразить последовательность, в которой различные поверхностные позиции (415) могут встречаться в предложении. Выражения линейного порядка могут включать имена переменных, названия поверхностных позиций, круглые скобки, граммемы, оценки, оператор «или», и т.д. Например, описание линейного порядка простого предложения «Boys play football» (мальчики играют в футбол), можно представить в следующем виде «subject core object_direct» (подлежащее ядро прямое_дополнение), где «subject» (подлежащее) и "object_direct" (прямое_дополнение) - названия поверхностных позиций (415), соответствующие порядку слов. Заполнители поверхностных позиций (415) присутствуют в предложении том же порядке, что и соответствующие символы в выражениях линейного порядка.
[0045] Различные поверхностные позиции (415) могут располагаться в отношении строгого или нестрогого линейного порядка в синтформе (412). Например, в одном варианте осуществления круглые скобки можно использовать для задания строгого линейного порядка между поверхностными позициями (415). Например, SurfaceSlot1 SurfaceSlot2 или (SurfaceSlot1 SurfaceSlot2) означает, что обе поверхностные позиции расположены в выражении линейного порядка, но возможен только один порядок этих поверхностных позиций относительно друг друга такой, что SurfaceSlot2 следует после SurfaceSlot1.
[0046] Квадратные скобки можно использовать для построения выражений линейного порядка и описания нестрогого линейного порядка между различными поверхностными позициями (415) синтформы (412). Например, в выражении [SurfaceSlot1 SurfaceSlot2] обе поверхностных позиции принадлежат одному и тому же выражению линейного порядка, но порядок их следования относительно друг друга не является существенным.
[0047] Выражения линейного порядка для описания линейного порядка (416) могут содержать грамматические значения (414), выраженные граммемами, при этом соответствующие дочерние составляющие должны удовлетворять этим грамматическим значениям. Кроме того, два выражения линейного порядка могут быть соединены оператором | ("ИЛИ"). Например: (Subject Core Object) | [Subject Core Object]. (Подлежащее ядро дополнение) [Подлежащее ядро дополнение]
[0048] Коммуникативные описания (480) описывают порядок слов в синтформе (412) с точки зрения коммуникативных актов, которые должны быть представлены в виде выражений коммуникативного порядка, которые похожи на выражения линейного порядка. Описание управления и согласования (440) содержит правила и ограничения для грамматических значений присоединяемых составляющих, которые учитываются при синтаксическом анализе.
[0049] Описания синтаксиса для структур не в виде деревьев (450) связаны с обработкой различных лингвистических явлений, таких как эллипсис и координация, они используются при преобразованиях синтаксических структур, которые создаются на различных этапах анализа в соответствии с вариантами осуществления настоящего изобретения. Описания синтаксиса для структур не в виде деревьев (450) включают описание эллипсиса (452), описание координации (454) и описание референциального и структурного контроля (430) и др.
[0050] Правила анализа (460), как часть синтаксических описаний (202), могут включать, помимо прочего, следующие правила: правила вычисления семантем (462) и правила нормализации (464). Несмотря на то, что правила анализа (460) используются на этапе семантического анализа, правила анализа (460) обычно описывают свойства конкретного языка, и они связаны с синтаксическими описаниями (202). Правила нормализации (464) могут использоваться в качестве правил трансформации для описания трансформации семантических структур, которые могут различаться в разных языках.
[0051] Фиг. 5 представляет собой схему, иллюстрирующую семантические описания согласно одной из возможных реализации изобретения. Компоненты семантических описаний (204) не зависят от языка, они могут включать, помимо прочего: семантическую иерархию (510), описания глубинных позиций (520), систему семантем (530) и прагматические описания (540).
[0052] Семантическая иерархия (510) состоит из семантических понятий (семантических сущностей), называемых семантическими классами, расположенных согласно иерархическим отношений родительский - дочерний класс в виде дерева. Дочерний семантический класс может наследовать большинство свойств своего прямого родителя и все унаследованные семантические классы. Например, семантический класс SUBSTANCE (вещество) является дочерним для семантического класса ENTITY (сущность) и родителем для семантических классов GAS (газ), LIQUID (жидкость), METAL (металл), WOOD_MATERIAL (дерево) и т.д.
[0053] Каждый семантический класс в семантической иерархии (510) сопровождается его глубинной моделью (512). Глубинная модель (512) семантического класса представляет собой множество глубинных позиций (514), которые отражают семантические роли дочерних составляющих в различных предложениях с объектами семантического класса в качестве ядра родительской составляющей, и возможных семантических классов в качестве заполнителей глубинных позиций. Глубинные позиции (514) выражают семантические отношения, в том числе, например, «agent» (агенс), «addressee» (адресат), «instrument» (инструмент), «quantity» (количество) и т.д. Дочерний семантический класс наследует и уточняет глубинную модель (512) родительского семантического класса.
[0054] Описания глубинных позиций (520) используются для описания общих свойств глубинных позиций (514) и отражения семантических ролей дочерних составляющих в глубинных моделях (512). Описания глубинных позиций (520) также могут содержать грамматические и семантические ограничения для заполнителей глубинных позиций (514). Свойства и ограничения глубинных позиций (514) и их возможных заполнителей очень похожи и часто идентичны в различных языках. Поэтому глубинные позиции (514) могут быть независимыми от языка.
[0055] Система семантем (530) представляет собой множество семантических категорий и семантем, которые представляют значения семантических категорий. Например, грамматическую семантическую категорию «DegreeOfComparison» (степень сравнения) можно использовать, чтобы описать степень сравнения прилагательных, и ее семантемами могут быть, например, среди прочих, «Positive» (Положительное), «ComparativeHigherDegree» (сравнительная степень), «SuperlativeHighestDegree» (превосходная степень). Другой пример: семантическая категория «RelationToReferencePoint» (Отношение к референциальной точке) может быть использована для описания порядка до референциальной точки отсчета, или после нее, и ее семантемами могут быть "Previous" (Предыдущая), "Subsequent" (Последующая), соответственно, а порядок может быть пространственным или временным в широком смысле для анализируемых слов. Еще один пример: семантическая категория "EvaluationObjective" (Объективная оценка) может использоваться для описания объективной оценки, такой как «Bad» (плохой), «Good» (хороший) и т.д.
[0056] Системы семантем (530) включают независимые от языка семантические атрибуты, которые выражают не только семантические характеристики, но также и стилистические, прагматические и коммуникативные характеристики. Некоторые семантемы можно использовать для выражения атомарного значения, которое находит регулярное грамматическое или лексическое выражение в языке. По своему назначению и использованию систему семантем (530) можно разделить на различные виды, включая, помимо прочего: грамматические семантемы (532), лексические семантемы (534) и классифицирующие грамматические (например, дифференцирующие) семантемы (536).
[0057] Грамматические семантемы (532) могут описывать грамматические свойства составляющих и используются при преобразовании синтаксического дерева в семантическую структуру. Лексические семантемы (534) могут описывать конкретные свойства объектов (например, «быть плоским» или «быть жидкостью»), их можно использовать в описаниях глубинных позиций (520) в качестве ограничения заполнителей глубинных позиций (например, для глаголов «облицевать» и «залить», соответственно). Классифицирующие грамматические (дифференцирующие) семантемы (536) выражают отличительные свойства объектов внутри одного семантического класса. Например, в семантическом классе HAIRDRESSER (парикмахер) семантема <<RelatedToMen>> (имеющий отношение к мужчинам) присваивается лексическому значению «barber», в отличие от других лексических значений, которые также принадлежат к этому классу, например, «hairdresser», «hairstylist» и т.д.
[0058] Прагматическое описание (540) позволяет системе назначить соответствующие тему, стиль или категорию текстам и объектам семантической иерархии (510). Например, назначенные тема, стиль или категория могут включать следующее: «экономическая политика», «внешняя политика», «правосудие», «законодательство», «торговля», «финансы» и т.д. Прагматические свойства также могут быть выражены семантемами. Например, прагматичный контекст может быть принят во внимание при семантическом анализе.
[0059] Фиг. 6 представляет собой схему, иллюстрирующую лексические описания согласно одной из возможных реализации изобретения. Лексические описания (203) представляют собой совокупность лексических значений (612) определенного языка. Для каждого лексического значения (612) имеется связь (602) с его независимым от языка семантическим родителем, указывающая местоположение того или иного лексического значения в семантической иерархии (510).
[0060] Каждое лексическое значение (612) связано со своей глубинной моделью (512), которая описана в независимых от языка терминах, и с поверхностной моделью (410), которая описана в терминах, специфичных для данного языка. Диатезы используются как «интерфейс» между поверхностными моделями (410) и глубинными моделями (512). Одна или несколько диатез (417) могут быть приписаны каждой поверхностной позиции (415) в каждой синтформе (412) поверхностных моделей (410).
[0061] В то время как поверхностная модель (410) описывает синтаксические роли заполнителей поверхностных позиций, глубинная модель (512) обычно описывает их семантические роли. Описание глубинной позиции (520) выражает семантический тип возможного заполнителя, отражает реальные аспекты ситуаций, свойств или атрибутов объектов, обозначенных словами любого естественного языка. Описание глубинной позиции (520) не зависит от языка, поскольку различные языки используют одну и ту же глубинную позицию для описания аналогичных семантических отношений или выражения подобных аспектов ситуаций, а заполнители глубинных позиций (514), обычно имеют одни и те же семантические свойства даже в разных языках. Каждое лексическое значение (612) лексического описания языка наследует семантический класс от своего родителя и подстраивает свою глубинную модель (512).
[0062] Кроме того, лексические значения (612) могут содержать свои собственные характеристики, а также могут наследовать другие характеристики от родительского семантического класса. Эти характеристики лексических значений (612) включают грамматические значения (608), которые могут быть выражены как граммемы, и семантическое значение (610), которое может быть выражено при помощи семантем.
[0063] Каждая поверхностная модель (410) лексического значения включает одну или несколько синтформ (412). Каждая синтформа (412) поверхностной модели (410) может включать одну или несколько поверхностных позиций (415) со своим описанием линейного порядка (416), одно или несколько грамматических значений (414), выраженных в виде набора грамматических характеристик (граммем), одно или несколько семантических ограничений на заполнители поверхностных позиций и одну или несколько диатез (417). Семантические ограничения на заполнитель поверхностной позиции представляют собой множество семантических классов, объекты которых могут заполнить эту поверхностную позицию. Диатезы (417) являются частью отношений (224) между синтаксическими описаниями (202) и семантическими описаниями (204), они представляют соответствия между поверхностными позициями (415) и глубинными позициями (514) глубинной модели (512).
[0064] Возвратимся к Фиг. 1C; этап (122) состоит из разбора каждого предложения в текстовом корпусе (121) в соответствии с исчерпывающим семантико-синтаксическим анализом, который подробно описан в патенте США №8.078,450. Все перечисленные лингвистические описания (210), включая морфологические описания (201), лексические описания (203), синтаксические описания (202) и семантические описания (204), могут использоваться для анализа каждого предложения в текстовом корпусе.
[0065] Фиг. 7 иллюстрирует основные этапы разбора каждого предложения в текстовом корпусе согласно одной из возможных реализации изобретения. На Фиг. 7А показана последовательность структур данных, которые строятся в процессе анализа согласно одной из возможных реализации изобретения. На этапе (710) исходное предложение на исходном языке подвергается лексико-морфологическому анализу для построения лексико-морфологической структуры (722) исходного предложения. Лексико-морфологическая структура (722) представляет собой множество всех возможных пар «лексическое значение - грамматическое значение» для каждого лексического элемента (слова) в исходном предложении. Что касается извлечения лексико-морфологических признаков, то полученные на этой стадии значения пока не могут использоваться для классификации т.к. на этом этапе еще имеется вариативность в силу неоднозначности лексического, морфологического и синтаксического разбора. Если используются признаки, полученные на этом этапе, точность классификации скорее всего не будет превышать точность классификации обычных систем, которые используют только лексические признаки.
[0066] Затем лексико-морфологическая структура анализируется с использованием грубого синтаксического анализа (720) исходного предложения для того, чтобы построить граф обобщенных составляющих (732). При грубом синтаксическом анализе (720) к каждому элементу лексико-морфологической структуры (722) применяются и проверяются все возможные синтаксические модели для этого лексического значения, и проводится поиск всех возможных синтаксических связей в предложении, что находит свое выражение в создании графа обобщенных составляющих (732).
[0067] Граф обобщенных составляющих (732) представляет собой ациклический граф, вершины которого обобщены (имеется в виду, что они содержат все варианты). Лексические значения слов в предложении представлены вершинами, а ветви представляют собой поверхностные (синтаксические) позиции, выражающие различные типы отношений между обобщенными лексическими значениями. Применяются все возможные поверхностные синтаксические модели для каждого элемента лексико-морфологической структуры предложения в качестве потенциального ядра составляющих. Затем строятся все возможные составляющие, которые обобщаются в графе обобщенных составляющих (732). Соответственно рассматриваются все возможные синтаксические модели и синтаксические структуры исходного предложения (712), и на основе множества обобщенных составляющих может быть построен граф обобщенных составляющих (732). Граф обобщенных составляющих (732) на уровне поверхностной модели отражает все потенциальные отношения между словами исходного предложения (713). Поскольку в общем случае количество вариаций синтаксического разбора может быть большим, объем графа обобщенных составляющих (732) может быть чрезмерно большим, и он может иметь большое количество вариантов как для выбора лексического значения для вершины, так и для поверхностных позиций для ветвей графа.
[0068] Для каждой пары «лексическое значение - грамматическое значение» инициализируется поверхностная модель, а дочерние составляющие добавляются в поверхностные позиции (415) синтформы (412) поверхностной модели (410). Например, соседние составляющие слева и справа могут быть добавлены в поверхностные позиции. Синтаксические описания показаны на Фиг. 4. Если соответствующая синтаксическая форма находится в поверхностной модели (410) для соответствующего лексического значения, то выбранное лексическое значение может использоваться в качестве ядра для новой составляющей.
[0069] Граф обобщенных составляющих (732) изначально строится как дерево от листьев к корню (снизу вверх). Построение дополнительных составляющих происходит снизу вверх путем прикрепления дочерних составляющих к родительским составляющим посредством заполнения поверхностных позиций (415) родительских составляющих для того, чтобы охватить все начальные лексические единицы исходного предложения (712).
[0070] Корень дерева, являющийся основным узлом графа (732), обычно представляет собой предикат (сказуемое). В ходе этого процесса дерево может стать графом, поскольку составляющие более низкого уровня (листья) могут быть включены в различные составляющие более высокого уровня (корень). Некоторые составляющие, которые строятся для тех же составляющих лексико-морфологической структуры, могут быть обобщены для получения обобщенных составляющих. Например, составляющие могут обобщаться на основе лексических значений (612) или грамматических значений (414), таких как части речи, и отношения между ними.
[0071] Точный синтаксический анализ (730) может быть выполнен на графе (732), чтобы выделить синтаксическое дерево (742) из графа обобщенных составляющих (732). Строится одно или несколько синтаксических деревьев, и для каждого синтаксического дерева может быть вычислена интегральная оценка на основе использования набора априорных и вычисляемых оценок. Синтаксическое дерево с наилучшей оценкой может быть выбрано для построения наилучшей синтаксической структуры (746) для исходного предложения.
[0072] На Фиг. 8 приведен вариант семантико-синтаксического разбора английского предложения согласно одной из возможных реализации изобретения. Например, английское предложение: «Не will probably be replaced by Shearer's Newcastle team mate Les Ferdinand» (Вероятно, его заменит партнер Ширера по команде «Ньюкасл» Лес Фердинанд), можно подвергнуть синтаксическому и семантическому анализу. В одном варианте осуществления вершины дерева, показанного на Фиг. 8, соответствуют токенам предложения, а связи - синтаксическим отношениям между ними. Более того, каждая вершина дерева содержит информацию о том, какому семантическому классу принадлежит данное лексическое значение, а также какую поверхностную (синтаксическую) позицию и какую глубинную (семантическую) позицию занимает это лексическое значение в данном варианте разбора. Для объектов, включенных в семантическую иерархию, например, Newcastle (Ньюкасл) (801) -название команды, определяется ее включение в семантический класс NEWCASTLE (Ньюкасл) и то, что этот токен является именем собственным: он заполняет поверхностную позицию ($Modifier_NominalEntityLike, 802) в синтаксической структуре, в то время как в семантической структуре он заполняет глубинную позицию (LocativeAttributeGenitive, 803). Если для токена не находится походящего лексического и семантического класса, то он помечается семантическим классом UNKNOWN (НЕИЗВЕСТНЫЙ), поверхностные и глубинные позиции в дереве выбираются на основании текущих гипотез о синтаксической структуре предложения и синтаксических моделях остальных элементов предложения, которые образуют контекст этого токена.
[0073] Синтаксические деревья формируются в процессе выдвижения и проверки гипотез о возможной синтаксической структуре предложения, причем гипотезы о структуре частей предложения формируются в рамках гипотезы о структуре всего предложения. Во время преобразования выбранного дерева в синтаксическую структуру (746) устанавливаются связи вне дерева. Если невозможно установить связи вне дерева, то выбирается следующее синтаксическое дерево с наибольшей оценкой и производится попытка использовать его для формирования связей вне дерева. Результатом точного анализа (730) является оптимальная синтаксическая структура (746) анализируемого предложения.
[0074] На этапе (740) формируется независимая от языка семантическая структура (714), которая выражает смысл предложения в универсальных, независимых от языка, понятиях. Независимая от языка семантическая структура предложения может быть представлена в виде ациклического графа (деревьев, дополненных связями вне дерева), в котором каждое слово на конкретном языке может быть заменено универсальными (независимыми от языка) семантическими сущностями, называемыми семантическими классами. Этот переход осуществляется с помощью семантических описаний (204) и правил анализа (460), которые дают структуру в виде дерева графа с верхней вершиной, в котором вершины соответствуют семантическим классам, имеющим набор атрибутов (атрибуты выражают лексические, синтаксические и семантические свойства конкретных слов в исходном предложении), а дуги являются глубинными (семантическими) отношениями между словами (вершинами), которые они соединяют.
[0075] Выбирая оптимальное синтаксическое дерево и строя семантическую структуру, можно снизить неоднозначность, связанную с токеном анализируемого предложения, используя большое множество морфологических, лексических, синтаксических и семантических параметров, которые были извлечены и уточнены во время анализа, а также значений соответствующих категорий. Часть извлеченных параметров и значений соответствующих категорий можно использовать в качестве классификационных признаков.
[0076] В варианте осуществления лексические признаки, такие как: отдельные слова, фразы, специальные суффиксы, префиксы, заглавные буквы и т.д., могут выбираться для использования в качестве классификационных признаков. Может использоваться лингвистический подход, который позволяет ограничить использование локальных признаков текстов в пользу универсальных независимых от языка семантических и синтаксических признаков, извлеченных в результате глубокого семантико-синтаксического анализа. Благодаря универсальной независимой от языка природе семантических описаний, семантические и синтаксические атрибуты и свойства могут переноситься среди разных жанров, тематик и даже языков текстов в целом. Более того, синтаксические признаки, которые характеризуют связи в предложении, позволяют рассматривать во взаимной связи токены, которые не являются «смежными», т.е. находятся на существенном расстоянии друг от друга в предложении. Это существенно, например, для немецкого языка.
[0077] Все признаки можно закодировать как строковые значения и рассматривать их как логические значения (Истина/Ложь). Таким образом, все булевские признаки можно представить наиболее естественным образом; каждый признак N-ой категории представлен в виде множества из N булевских признаков. Такой подход исключает использование признаков, выражаемых вещественными числами и существенно ограничивает использование целочисленных признаков только сравнительно небольшим набором значений.
[0078] В одном варианте осуществления признаки, полученные путем только одного [синтаксического] анализа каждого предложения (о котором предполагается, что он является наиболее точным), могут использоваться для упрощения извлеченных атрибутов. Например, «огрубление» значений атрибутов может привести как к потере существенной информации, так и к повышению устойчивости к переобучению. В другом варианте реализации могут использоваться более подробные внутренние структуры парсера, такие как синтаксические или семантические структуры. В еще одном варианте осуществления также могут анализироваться альтернативные варианты разбора. Полученные признаки могут иметь различное типы, включая, помимо прочего, следующие:
[0079] Поверхностно-лексические признаки. Из поверхностно-лексических признаков, которые определяются из написания токенов, используется регистр символов (WCASE: первая буква заглавная, все буквы заглавные и т.д.), и уточненные признаки регистра, которые в некоторых источниках называются SHAPE (Форма). Значение SHAPE формируется в результате ряда замен. Например, заглавные буквы заменяются буквой «X», строчные буквы заменяются буквой «х», а цифры заменяются буквой «d». Результаты замены первых двух символов и последних двух символов остаются на своих местах; повторы удаляются из оставшихся результатов, а сами символы сортируются. Например, токен «Ireland-born» (рожденный в Ирландии) соответствует значению «Хх-ххх», а токен «1996-02-12» соответствует «dd-ddd». Например, WCASE применяется к текущему токену и предыдущему токену (например, в диапазоне [-1…0]); SHAPE применяется к двум предыдущим токенам и текущему токену (например, в диапазоне [-2…0]).
[0080] Лексические признаки. Лексические признаки не используют внешние списки именованных сущностей, однако списки наиболее полных наименований NE, например списки, предоставленные авторами корпуса CoNLL-2003, могут использоваться в качестве признака PART_OF_(MISC|ORG|PER|LOC). Признак PART_OF_(MISC|ORG[PER[LOC) принимает логическое значение «Истина», если текущий токен является частью названия NE, имеющегося в соответствующей категории списков. Чтобы не допустить переобучения на этом признаке, случайным образом выбирается 50% названий из списков, которые могут быть использованы на этапе обучения, в то время как на этапе тестирования могут использоваться 100% названий. Этот признак может быть применен к текущему токену.
[0081] Поверхностно-морфологические признаки. Парсер может получить поверхностно-морфологический признак путем разметки частей речи, представленных признаком POS, вычисленным в диапазоне [-1…0].
[0082] Поверхностно-синтаксические признаки. Для каждого слова парсер может определить два синтаксических атрибута: поверхностную позицию (SURFSL: Modifier_NominalEntityLike, Modifier_Attributive, Object_Indirect…) и упрощенное преставление синтаксической роли этого слова в предложении (SYNTF: Subject, Preposition, AdverbialModifier, …) (подлежащее, предлог, обстоятельство и т.д.). Эти признаки могут учитываться для текущего токена и для его родителя (PAR_SURFSL, PAR_SYNTF) в дереве синтаксического анализа. Эти признаки сильнее зависят от языка текста, чем остальные.
[0083] Глубинно-семантические признаки. Парсер может использовать семантическую иерархию (которая ниже обозначается «SH»), где SH представляет собой дерево, вершинами которого являются семантические классы (SC), а листьями которого являются лексическими классами (LC). Для каждого анализируемого слова анализатор может указывать на LC и несколько родительских SC в порядке возрастания по SH от более частных классов к более общим. Этот набор классов обозначен признаком EXLEXCLASS. Значение этого признака может представлять собой вектор булевых значений, которые соответствуют каждому классу SC и указывают, какие классы SC встречаются на пути от лексического пути до SH (например, soccer: FOOTBALL: (ФУТБОЛ (включая другие виды игры)): TYPES_OF_GAMES: (ТИПЫ_ИГР:) SPORT: (СПОРТ:) AREA_OF_HUMAN_ACTIVITY). (ОБЛАСТЬ_ДЕЯТЕЛЬНОСТИ_ЧЕЛОВЕКА).) Кроме того, существуют различные способы «огрубления» SH. Например, определяемый парсером атрибут NearestSensibleParent (NSP) позволяет отсечь значительную часть аналогичных второстепенных семантических классов в SH. Его значение должно быть равно TYPES_OF_GAMES в приведенном выше примере «soccer» (футбол). В другом примере искусственно введенный атрибут ABR_EXLEXCLASS может быть получен отсечением из пути вдоль иерархии SH, лексического класса и нескольких классов SC, расположенных в иерархии ниже определенных классов из заданного списка (COUNTRY_BY_NAME, PERSON_BY_FIRSTNAME и т.д.) (СТРАНА_ПО_НАЗВАНИЮ, ЛЮДИ_ПО_ИМЕНИ и т.д). Атрибут LEXCLASS_CONT может представлять собой набор булевских признаков, определяемых наличием в пути SH к слову нескольких выбранных вручную классов SC, которые лучше всего коррелируют с тегами категории именованной сущности в обучающей выборке. Парсер также предоставляет используемый классификатором атрибут NOUN_TYPE, который может разделять существительные на имена собственные и имена нарицательные.
[0084] «Огрубление» SH позволяет поддерживать баланс между сохранением необходимой информации для обучения и избыточным обучением. Так, оптимальное огрубление может быть таким огрублением, при котором для каждого слова выбирается наиболее общий класс SC, дочерние классы SC и LC которого имеют некоторую равнозначностью с точки зрения решаемой задачи.
[0085] Комбинации признаков. В некоторых вариантах осуществления признаки могут комбинироваться для получения наилучших результатов. Например, один признак со значениями (NOUN_TYPE=Common, WCASE=Lower) (Тип существительного - нарицательное, Регистр - нижний), (NOUN_TYPE=Proper, WCASE=AllUpper) (Тип существительного - собственное, Регистр - все верхние), … содержит больше информации, чем два признака со значениями (Common, Proper, …) (нарицательное, собственное, …) и (Lower, AllUpper, …) (нижний, все верхние, …) при обучении модели условных случайных полей (CRF), основанной на взвешенной сумме значений признака. С другой стороны, размер множества значений комбинаций из нескольких многозначных признаков может превышать количество слов в обучающей выборке, что приводит к переобучению классификатора. Таким образом, в одном варианте осуществления для использования можно выбрать подмножество комбинаций. В дополнительных вариантах осуществления можно использовать другое подмножество комбинаций.
[0086] Вернемся к Фиг. 1C; обученную модель можно использовать для классификации (этап 123). В одном варианте осуществления этап классификации может дать текст (124), размеченный в соответствии с категориями сущностей, определенных обученной моделью и соответствующими атрибутами. Кроме того, атрибуты, полученные из неразмеченного корпуса текста, могут быть добавлены к значениям, связанным с одной или несколькими категориями. Например, токен может быть классифицирован в категорию PERSON (Персона) на основании подмножества атрибутов, связанных с этим токеном. Остальные атрибуты или подмножество остальных атрибутов, можно затем добавить в качестве значений для данной категории. Последующая классификация может использовать дополнительные атрибуты при классификации дополнительных токенов.
[0087] Автоматизация формирования признаков может привести к появлению большого количества признаков. В одном варианте осуществления множество признаков может быть ограничено для того, чтобы сократить окончательный набор признаков. Выбор признаков включает создание признаков на основании имеющихся данных и отсева (подмножеств) признаков. Методы отсева можно подразделить на фильтры и обертки. Фильтры могут ранжировать признаки, применяя различные метрики корреляции к значениям признаков и результатам системы. Например, фильтры можно настроить для конкретных обучающих моделей.
[0088] Обертки же рассматривают обучаемую модель и набор признаков как «черный ящик» и непосредственно обучают и оценивают модель на разных наборах признаков. В одном варианте осуществления обертки позволяют избежать адаптации выбора признака для обучающей модели, что является нетривиальной задачей. При решении задач NLP выбор признаков осложняется тем, что размер множества возможных признаков достигает сотен и тысяч. Сокращение этого набора помогает избежать переобучения, повышает допустимую погрешность изменений предметной области в текстах, снижает вычислительную сложность этих систем и облегчает понимание решаемой задачи.
[0089] Обертки для задач NLP могут потребовать большого объема вычислений, поэтому при организации вычислений можно использовать несколько компьютеров. В одном варианте осуществления крупномасштабные распределенные научные расчеты могут быть организованы с помощью системы, например платформы открытых вычислений BOINC, которая обладает такими качествами, как независимость от платформы, поддержка протокола HTTP, простота развертывания, оптимизация обмена данными, а также наличие готовых инструментов разработки.
[0090] Реализация оберток с помощью BOINC заключается в следующем: на вычислительные узлы рассылается код обучаемой системы, обучающий и тестовый корпусы текстов и описание задачи, включающее набор признаков. Узлы проводят обучение системы, используя данный корпус с указанным набором признаков, и проводят тестирование с использованием другого корпуса. Затем результаты тестирования передаются на центральный узел.
[0091] Использование платформы BOINC требует описания метода порождения новых задач и метода обработки результатов. Обработанные результаты могут быть сохранены, например, в базе данных, для последующего анализа.
[0092] Алгоритм порождения задачи может быть определен с помощью выбранного метода анализа признаков. Метод анализа признаков может включать в себя, например, «greedy forward selection» («жадный выбор признаков вперед») и «greedy backwards exclusion» («жадное исключение признаков назад»). В методе «жадный выбор признаков вперед» каждый следующий набор задач получается добавлением по одному признаку из полного набора к лучшему результату предыдущей итерации.. В методе «жадного исключения признаков назад» из набора прошлой итерации исключается по одному признаку. Можно использовать дополнительный анализ признака, включая, например, анализ, основанный на взаимной информации.
[0093] Используемые методы быстро выявляют наиболее сильные признаки (в случае выбора «вперед») или же признаки, наименее информативные относительно остального набора (в случае исключения «назад»), что позволяет разрабатывать оптимальные и переносимые между различными текстами классификаторы именованных сущностей.
[0094] Переносимость машинно-обучаемой системы NER между доменами (корпусами, принадлежащими к разным периодам времени или относящимися к разным тематикам) в значительной степени зависит от выбора признаков. В некоторых случаях перенос признаков между доменами может приводить к абсолютной неприменимости: таким признаком может являться принадлежность распознаваемого имени к доменно-зависимому словарю имен. В одном варианте осуществления для выявления переносимого, максимально точного и минимально избыточного набора признаков может использоваться механизм ранжирования.
[0095] Механизм ранжирования может оценить переносимость признака системы NER, используя, например, два набора текстов, полученных из различных источников. Признаки можно ранжировать в соответствии с их переносимостью на основе меры схожести. Например, в качестве меры схожести может использоваться мера, подобная косинусу угла между вероятностными распределениями значений признаков по условию заданного класса объектов.
[0096] Точность набора признаков может быть определена на основе взаимной информации между значениями признаков и классами объектов. Взаимная информация между классом и составными значениями пар признаков может быть вычислена для определения кандидатов на объединение для получения признака, имеющего более широкий набор значений и обеспечивающего более высокую точность. Выявленные кандидаты и полученные признаки впоследствии оцениваются с точки зрения переносимости.
[0097] В одном варианте осуществления взаимная информация между парами признаков может быть вычислена для минимизации избыточности. Например, один из пары признаков с высоким значением взаимной информации может быть исключен из обучающей модели. Представленный метод выбора может дать значения F1-меры 75-80% при обучении системы NER на корпусе текстов.
[0098] В другом варианте осуществления точность результатов работы системы NER может быть повышена путем включения внешних списков именованных сущностей и нелокальных признаков на уровне документа (например, тегов и метаданных), а также коллекции. В еще одном варианте осуществления подключаются признаки в линейном и древесном контекстах слов. В другом варианте осуществления можно одновременно анализировать и использовать зависимость интегральной F-меры от выбора признаков, получаемую на основе анализа текста с помощью текстового парсера. Наилучшие результаты получаются при настройке множества признаков; никакие изменения и настройки для конкретного корпуса не вносятся в алгоритм обучения или в парсер.
[0099] В другом варианте осуществления классификатор может быть обучен с использованием корпуса, в котором все именованные сущности заменяются названиями именованных сущностей. Названия сущностей могут использоваться для изучения роли семантических и синтаксических признаков и настроек классификатора. Классификатор можно обучать с использованием корпуса, в котором все именованные сущности заменяются названиями именованных сущностей, которые были сознательно опущены из семантических описаний парсера, чтобы улучшить алгоритм парсера для разрешения неоднозначности, вызванной неизвестными словами в процессе анализа, заведомо отсутствующими в семантических описаниях парсера. Подобное исследование позволяет усовершенствовать алгоритмы самого парсера по разрешению неоднозначностей, связанных с незнакомыми словами при разборе.
[00100] На Фиг. 9 показан возможный пример вычислительного средства (900), которое можно использовать для реализации описанных вариантов осуществления. Вычислительное средство (900) содержит по меньшей мере один процессор (902), соединенный с памятью (904). Процессор (902) может представлять собой один или несколько процессоров, он может содержать одно, два или больше вычислительных ядер. Память (904) может представлять собой оперативную память (RAM), она может также содержать любые другие типы и виды памяти, в частности энергонезависимые запоминающие устройства (например, флэш-накопители) или постоянные запоминающие устройства, такие как жесткие диски и так далее. Кроме того, можно рассмотреть устройство, в котором память (904) включает носитель информации, физически расположенный в другом месте в пределах вычислительного средства (900), например, кэш-память в процессоре (902), и память, используемую в качестве виртуальной памяти, которая хранится во внешнем или внутреннем постоянном запоминающем устройстве (910).
[00101] Вычислительное средство (900) также обычно имеет определенное количество входных и выходных портов для передачи и приема информации. Для взаимодействия с пользователем вычислительное средство (900) может содержать один или несколько устройств ввода (например, клавиатуру, мышь, сканер, и др.) и устройство отображения (908) (например, жидкокристаллический дисплей). Вычислительное средство (900) также может иметь одно или несколько постоянных запоминающих устройств (910), таких как привод оптических дисков (формата CD, DVD или другого формата), накопитель на жестком диске или ленточный накопитель. Кроме того, вычислительное средство (900) может иметь интерфейс с одной или несколькими сетями (912), которые обеспечивают связь с другими сетями и другим компьютерным оборудованием. В частности, это может быть локальная сеть (LAN), беспроводная сеть Wi-Fi; она может быть подключена к сети Интернет, а может быть не подключена к ней. Разумеется, вычислительное средство (900) имеет соответствующие аналоговые и/или цифровые интерфейсы между процессором (902) и каждым из компонентов (904, 906, 908, 910 и 912).
[00102] Вычислительное средство (900) управляется операционной системой (914), и включает различные приложения, компоненты, программы, объекты, модули и прочие элементы, совместно обозначенные числом 916.
[00103] В общем случае процедуры, выполняемые для реализации вариантов осуществления, могут быть воплощены как часть операционной системы или как конкретное приложение, компонента, программа, объект, модуль или последовательности команд, которые называются «компьютерными программами». Обычно компьютерные программы содержат одну или несколько команд, записанных в разное время в различных запоминающих устройствах и системах хранения в компьютере, которые при считывании и выполнении одним или несколькими процессорами в компьютере приводят к тому, что этот компьютер производит операции, необходимые для выполнения элементов раскрытых вариантов осуществления. Кроме того, различные варианты осуществления были описаны в контексте полностью работоспособных компьютеров и компьютерных систем; специалистам в данной области техники будет понятно, что различные варианты могут распространяться в виде программного продукта в различных формах, и что это в равной степени применимо независимо от конкретного типа машиночитаемых носителей, используемых для фактического распространения. Примеры машиночитаемых носителей включают: записываемые носители записи, такие как энергонезависимые и энергозависимые устройства памяти, гибкие диски и другие съемные диски, накопители на жестких дисках, оптические диски (например, постоянное запоминающее устройство на основе компакт-диска (CD-ROM), на основе универсального цифрового диска (DVD), флэш-память и т.д.), и т.д. Другой тип распространения может быть реализован в виде загрузки из сети Интернет.
[00104] В приведенном выше описании в целях пояснения изложены многочисленные конкретные детали. Однако специалистам в данной области техники будет очевидно, что эти конкретные детали являются просто примерами. В других случаях структуры и устройства показаны только в виде блок-схемы для того, чтобы не затруднять понимание изложения.
[00105] Ссылка в данном описании на «один вариант осуществления» или «вариант осуществления» означает, что конкретная структура, признак или характеристика, описанная в связи с данным вариантом воплощения, включена по меньшей мере в один вариант осуществления. Выражения «в одном варианте осуществления» в различных местах описания изобретения не обязательно относятся к одному и тому же варианту осуществления, а отдельные или альтернативные варианты не являются взаимоисключающими для других вариантах осуществления. Кроме того, приведено описание различных признаков, которые могут присутствовать в некоторых вариантах осуществления, но могут не присутствовать в других вариантах осуществления. Аналогично, приведено описание различных требований, которые могут быть применимыми к некоторым вариантам осуществления, но неприменимы к другим вариантам осуществления.
[00106] Несмотря на то, что некоторые иллюстративные варианты осуществления описаны и показаны на прилагаемых чертежах, следует понимать, что такие варианты осуществления являются исключительно иллюстративными и не ограничивают раскрытые варианты осуществления, и что эти варианты осуществления не ограничиваются конкретными приведенными и описанными конструкциями и схемами, поскольку специалисты в данной области техники после изучения настоящего описания могут использовать различные другие модификации. В подобных областях технологии, характеризующихся быстрым ростом, весьма непросто предвидеть дальнейшие достижения, и раскрытые варианты осуществления могут быть легко изменены в отношении схем и деталей, что облегчается в результате использования технологических достижений, не отступая при этом от принципов настоящего раскрытия.
[00107] Настоящее описание иллюстрирует основной изобретательский замысел, который не может быть ограничен указанным выше аппаратным обеспечением. Следует отметить, что аппаратное обеспечение предназначено в первую очередь для решения узкой проблемы. С течением времени и по мере развития технологии такая задача становится более сложной или она развивается. Возникают новые инструменты, способные удовлетворять новые требования. В этом смысле уместно рассматривать это аппаратное обеспечение с точки зрения класса технических задач, которые оно способно решать, а не просто как на техническую реализацию на основании некоторых элементов.

Claims (78)

1. Способ распознавания именованных сущностей в текстах на естественном языке, включающий:
выбор обучающего набора текстов на естественном языке;
извлечение процессором соответствующего набора признаков для каждой категории именованных сущностей;
обучение процессором модели классификации с использованием обучающего набора текстов и наборов признаков для каждой категории именованных сущностей;
извлечение процессором токенов из неразмеченного текста;
формирование процессором набора атрибутов для каждого токена неразмеченного текста на основании по меньшей мере глубокого семантико-синтаксического анализа, включающего:
лексико-морфологический анализ по меньшей мере одного предложения неразмеченного корпуса текстов, включающий получение всех возможных морфологических и лексических атрибутов каждого токена;
определение возможных синтаксических связей по меньшей мере в одном предложении неразмеченного текста, включающее получение множества синтаксических атрибутов;
формирование независимой от языка семантической структуры, включающее определение семантических связей и соответствующих семантических атрибутов каждого токена; и
при этом набор атрибутов для каждого токена включает по меньшей мере один из множества лексических, синтаксических и семантических атрибутов;
классификацию процессором каждого токена по меньшей мере в одну из категорий на основании модели классификатора и набора атрибутов токена; и
формирование процессором размеченного представления по меньшей мере части текста на основании по меньшей мере одного из токенов, классифицированных по категориям.
2. Способ по п. 1, дополнительно включающий получение обученной модели классификации путем:
сравнения атрибутов классификатора с маркерами, полученными из размеченного корпуса текстов;
присвоения весов атрибутам в соответствии с результатами этого сравнения; и
максимизации точности, полноты или F-меры, оцененных по отдельному размеченному корпусу оценки.
3. Способ по п. 1, отличающийся тем, что формирование процессором набора атрибутов для каждого токена дополнительно включает:
ранжирование атрибутов на основе метрики корреляции, при котором метрика корреляции сравнивает значения атрибутов и размеченный текст; и
выбор подмножества атрибутов на основании по меньшей мере указанного ранжирования.
4. Способ по п. 3, отличающийся тем, что формирование процессором набора атрибутов для каждого токена включает:
определение первого подмножества атрибутов;
определение первой оценки обучающей модели, основанной по меньшей мере на первом подмножестве атрибутов;
определение второго подмножества атрибутов, в котором второе подмножество атрибутов включает первое подмножество атрибутов и по меньшей мере один дополнительный атрибут;
определение второй оценки обучающей модели, основанной по меньшей мере на втором подмножестве атрибутов, а также
выбор подмножества атрибутов из первого или из второго подмножества атрибутов на основании по меньшей мере первой и второй оценок.
5. Способ по п. 4, отличающийся тем, что формирование процессором набора атрибутов для каждого токена дополнительно включает:
определение всех атрибутов в качестве первого подмножества атрибутов;
определение первой оценки обучающей модели, основанной по меньшей мере на первом подмножестве атрибутов;
определение второго подмножества атрибутов, в котором количество атрибутов меньше, чем в первом подмножестве атрибутов;
определение второй оценки обучающей модели, основанной по меньшей мере на втором подмножестве атрибутов, а также
выбор подмножества атрибутов из первого или из второго подмножества атрибутов на основании по меньшей мере первой и второй оценок.
6. Способ по п. 5, отличающийся тем, что первая и вторая оценки основаны по меньшей мере на оценках точности, полноты и F-меры.
7. Способ по п. 2, отличающийся тем, что атрибуты классификатора включают подмножество атрибутов обученной модели, в котором эти атрибуты классификатора выбираются по меньшей мере на основании F-меры.
8. Система распознавания именованных сущностей в текстах на естественном языке, включающая:
один или несколько процессоров, настроенных на:
выбор обучающего набора текстов на естественном языке;
извлечение процессором соответствующего набора признаков для каждой категории именованных сущностей;
обучение процессором модели классификации с использованием обучающего набора текстов и наборов признаков для каждой категории именованных сущностей;
извлечение токенов из неразмеченного текста;
формирование набора атрибутов для каждого из токенов неразмеченного текста на основании по меньшей мере глубокого семантико-синтаксического анализа, включающего:
лексико-морфологический анализ по меньшей мере одного предложения неразмеченного корпуса текстов, включающее получение всех возможных морфологических и лексических атрибутов каждого токена;
определение возможных синтаксических связей по меньшей мере в одном предложении неразмеченного текста, включающее получение множества синтаксических атрибутов;
формирование независимой от языка семантической структуры, включающее определение семантических связей и соответствующих семантических атрибутов для каждого токена; и
при этом набор атрибутов для каждого токена включает по меньшей мере один из множества лексических, синтаксических и семантических атрибутов;
классификацию процессором каждого токена по меньшей мере в одну категорию на основании сравнения модели классификатора и набора атрибутов токена; и
формирование процессором размеченного представления по меньшей мере части текста на основании по меньшей мере одного из токенов, классифицированных по категориям.
9. Система по п. 8, отличающаяся тем, что один или несколько процессоров дополнительно настроены при получении обученной модели классификации на:
сравнение атрибутов классификатора с тегами, полученными из размеченного корпуса текстов;
присвоение весов атрибутам в соответствии с результатами этого сравнения и
максимизацию оценок точности, полноты и F-меры, оцененных на отдельном размеченном корпусе оценки для того, чтобы получить обученный классификатор.
10. Система по п. 8, отличающаяся тем, что один или несколько процессоров настроены на выбор подмножества признаков и настроены на:
определение первого подмножества атрибутов;
определение первой оценки обучающей модели, основанной по меньшей мере на первом подмножестве атрибутов;
определение второго подмножества атрибутов, в котором второе подмножество атрибутов включает первое подмножество атрибутов и по меньшей мере один дополнительный атрибут;
определение второй оценки обучающей модели, основанной по меньшей мере на втором подмножестве атрибутов, а также
выбор подмножества атрибутов из первого или из второго подмножества атрибутов на основании по меньшей мере первой и второй оценок.
11. Машиночитаемый носитель информации, содержащий исполняемые процессором инструкции для распознавания именованных сущностей в текстах на естественном языке, и настраивающие процессор на:
выбор обучающего набора текстов на естественном языке;
извлечение процессором соответствующего набора признаков для каждой категории именованных сущностей;
обучение процессором модели классификации с использованием обучающего набора текстов и наборов признаков для каждой категории именованных сущностей;
извлечение по меньшей мере одного из токенов из неразмеченного текста;
формирование множества атрибутов для каждого токена неразмеченного текста на основании по меньшей мере глубокого семантико-синтаксического анализа, включающего:
лексико-морфологический анализ по меньшей мере одного предложения неразмеченного корпуса текстов, включающее получение всех возможных морфологических и лексических атрибутов каждого токена;
определение возможных синтаксических связей в по меньшей мере одном предложении неразмеченного текста, включающее получение множества синтаксических атрибутов;
формирование независимой от языка семантической структуры, включающее определение семантических связей и соответствующих семантических атрибутов каждого токена; и
при этом набор атрибутов включает по меньшей мере один из множества лексических, синтаксических и семантических атрибутов;
классификацию каждого токена по меньшей мере в одной категории на основании модели классификатора и набора атрибутов токена; и
формирование процессором размеченного представления по меньшей мере части текста на основании по меньшей мере одного из токенов, классифицированных по категориям.
12. Машиночитаемый носитель по п. 11, отличающийся тем, что записанные в нем команды для обучения модели классификации дополнительно содержат:
команды для сравнения атрибутов классификатора с маркерами, полученными из размеченного корпуса текстов;
команды для присвоения весов атрибутам в соответствии с результатами сравнения; и
команды для максимизации оценок точности, полноты и F-меры, оцениваемых на отдельном размеченном корпусе для того, чтобы получить обученный классификатор.
13. Машиночитаемый носитель информации по п. 11, отличающийся тем, что записанные в нем команды для формирования набора атрибутов дополнительно включают:
команды для определения первого подмножества атрибутов;
команды для определения первой оценки обучаемой модели, основанной по меньшей мере на первом подмножестве атрибутов;
команды для определения второго подмножества атрибутов, в котором второе подмножество атрибутов содержит первое подмножество атрибутов и по меньшей мере один дополнительный атрибут;
команды для определения второй оценки обучаемой модели, основанной по меньшей мере на втором подмножестве атрибутов, а также
команды для выбора подмножества атрибутов из первого или второго подмножества атрибутов на основании по меньшей мере первой и второй оценок.
RU2014101126A 2014-01-15 2014-01-15 Автоматическое извлечение именованных сущностей из текста RU2665239C2 (ru)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2014101126A RU2665239C2 (ru) 2014-01-15 2014-01-15 Автоматическое извлечение именованных сущностей из текста
US14/508,419 US9588960B2 (en) 2014-01-15 2014-10-07 Automatic extraction of named entities from texts

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2014101126A RU2665239C2 (ru) 2014-01-15 2014-01-15 Автоматическое извлечение именованных сущностей из текста

Publications (2)

Publication Number Publication Date
RU2014101126A RU2014101126A (ru) 2015-07-20
RU2665239C2 true RU2665239C2 (ru) 2018-08-28

Family

ID=53521532

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2014101126A RU2665239C2 (ru) 2014-01-15 2014-01-15 Автоматическое извлечение именованных сущностей из текста

Country Status (2)

Country Link
US (1) US9588960B2 (ru)
RU (1) RU2665239C2 (ru)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2691837C1 (ru) * 2018-09-20 2019-06-18 Юрий Михайлович Акаткин Способ автоматизированного проектирования приложений
WO2020091618A1 (ru) * 2018-10-30 2020-05-07 федеральное государственное автономное образовательное учреждение высшего образования "Московский физико-технический институт (государственный университет)" Система определения именованных сущностей с динамическими параметрами
RU2726739C1 (ru) * 2019-07-29 2020-07-15 Бейджин Сяоми Интеллиджент Текнолоджи Ко., Лтд. Способ, аппарат и устройство для обработки естественного языка
WO2021075998A1 (ru) * 2019-10-16 2021-04-22 Публичное Акционерное Общество "Сбербанк России" Система классификации данных для выявления конфиденциальной информации в тексте
RU2750852C1 (ru) * 2020-10-19 2021-07-05 Федеральное государственное бюджетное образовательное учреждение высшего образования «Национальный исследовательский Мордовский государственный университет им. Н.П. Огарёва» Способ атрибутизации частично структурированных текстов для формирования нормативно-справочной информации
RU2751993C1 (ru) * 2020-09-09 2021-07-21 Глеб Валерьевич Данилов Способ извлечения информации из неструктурированных текстов, написанных на естественном языке
RU2766060C1 (ru) * 2021-05-18 2022-02-07 Ооо "Менталогические Технологии" Способ автоматизированного извлечения смысловых компонент из сложносочинённых предложений естественно-язычных текстов в системах машинного перевода и устройство для его реализации
RU2766821C1 (ru) * 2021-02-10 2022-03-16 Общество с ограниченной ответственностью " МЕНТАЛОГИЧЕСКИЕ ТЕХНОЛОГИИ" Способ автоматизированного извлечения смысловых компонентов из сложносочинённых предложений естественно-язычных текстов в системах машинного перевода и устройство для его реализации
RU2769427C1 (ru) * 2021-04-05 2022-03-31 Анатолий Владимирович Буров Способ автоматизированного анализа текста и подбора релевантных рекомендаций по улучшению его читабельности
RU2822992C1 (ru) * 2021-01-11 2024-07-17 Биго Текнолоджи Пте. Лтд. Способ и устройство для разделения на слова, улучшенные с помощью межъязыковых данных

Families Citing this family (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8996352B2 (en) 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for correcting translations in multi-user multi-lingual communications
US9600473B2 (en) 2013-02-08 2017-03-21 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9231898B2 (en) 2013-02-08 2016-01-05 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9298703B2 (en) 2013-02-08 2016-03-29 Machine Zone, Inc. Systems and methods for incentivizing user feedback for translation processing
US10650103B2 (en) 2013-02-08 2020-05-12 Mz Ip Holdings, Llc Systems and methods for incentivizing user feedback for translation processing
US9031829B2 (en) 2013-02-08 2015-05-12 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9348815B1 (en) 2013-06-28 2016-05-24 Digital Reasoning Systems, Inc. Systems and methods for construction, maintenance, and improvement of knowledge representations
US9665454B2 (en) * 2014-05-14 2017-05-30 International Business Machines Corporation Extracting test model from textual test suite
US9311301B1 (en) * 2014-06-27 2016-04-12 Digital Reasoning Systems, Inc. Systems and methods for large scale global entity resolution
US10162811B2 (en) 2014-10-17 2018-12-25 Mz Ip Holdings, Llc Systems and methods for language detection
US20160117386A1 (en) * 2014-10-22 2016-04-28 International Business Machines Corporation Discovering terms using statistical corpus analysis
US9898773B2 (en) * 2014-11-18 2018-02-20 Microsoft Technology Licensing, Llc Multilingual content based recommendation system
US9588959B2 (en) * 2015-01-09 2017-03-07 International Business Machines Corporation Extraction of lexical kernel units from a domain-specific lexicon
US10311408B2 (en) * 2015-04-10 2019-06-04 Soliton Systems K.K. Electronic mail wrong transmission determination apparatus, electronic mail transmission system, and recording medium
CN105653519A (zh) * 2015-12-30 2016-06-08 贺惠新 一种领域专有词的挖掘方法
US10765956B2 (en) * 2016-01-07 2020-09-08 Machine Zone Inc. Named entity recognition on chat data
RU2628431C1 (ru) * 2016-04-12 2017-08-16 Общество с ограниченной ответственностью "Аби Продакшн" Подбор параметров текстового классификатора на основе семантических признаков
US11263218B2 (en) * 2016-04-26 2022-03-01 Equifax Inc. Global matching system
RU2619193C1 (ru) * 2016-06-17 2017-05-12 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Многоэтапное распознавание именованных сущностей в текстах на естественном языке на основе морфологических и семантических признаков
US11449744B2 (en) 2016-06-23 2022-09-20 Microsoft Technology Licensing, Llc End-to-end memory networks for contextual language understanding
US10311092B2 (en) * 2016-06-28 2019-06-04 Microsoft Technology Licensing, Llc Leveraging corporal data for data parsing and predicting
US10366163B2 (en) * 2016-09-07 2019-07-30 Microsoft Technology Licensing, Llc Knowledge-guided structural attention processing
RU2646386C1 (ru) * 2016-12-07 2018-03-02 Общество с ограниченной ответственностью "Аби Продакшн" Извлечение информации с использованием альтернативных вариантов семантико-синтаксического разбора
RU2646380C1 (ru) * 2016-12-22 2018-03-02 Общество с ограниченной ответственностью "Аби Продакшн" Использование верифицированных пользователем данных для обучения моделей уверенности
RU2662688C1 (ru) * 2017-03-16 2018-07-26 Общество с ограниченной ответственностью "Аби Продакшн" Извлечение информации из смысловых блоков документов с использованием микромоделей на базе онтологии
US10467346B2 (en) * 2017-05-18 2019-11-05 Wipro Limited Method and system for generating named entities
US10534825B2 (en) 2017-05-22 2020-01-14 Microsoft Technology Licensing, Llc Named entity-based document recommendations
WO2018232581A1 (en) * 2017-06-20 2018-12-27 Accenture Global Solutions Limited AUTOMATIC EXTRACTION OF A LEARNING CORPUS FOR A DATA CLASSIFIER BASED ON AUTOMATIC LEARNING ALGORITHMS
US10936952B2 (en) 2017-09-01 2021-03-02 Facebook, Inc. Detecting content items in violation of an online system policy using templates based on semantic vectors representing content items
US11195099B2 (en) 2017-09-01 2021-12-07 Facebook, Inc. Detecting content items in violation of an online system policy using semantic vectors
WO2019060353A1 (en) 2017-09-21 2019-03-28 Mz Ip Holdings, Llc SYSTEM AND METHOD FOR TRANSLATION OF KEYBOARD MESSAGES
US20190182197A1 (en) * 2017-10-10 2019-06-13 Soliton Systems K.K. Warning apparatus for preventing electronic mail wrong transmission, electronic mail transmission system, and program
US10860800B2 (en) * 2017-10-30 2020-12-08 Panasonic Intellectual Property Management Co., Ltd. Information processing method, information processing apparatus, and program for solving a specific task using a model of a dialogue system
RU2679988C1 (ru) * 2017-12-11 2019-02-14 Общество с ограниченной ответственностью "Аби Продакшн" Извлечение информационных объектов с помощью комбинации классификаторов
US11086913B2 (en) * 2018-01-02 2021-08-10 Freshworks Inc. Named entity recognition from short unstructured text
US10999256B2 (en) * 2018-01-29 2021-05-04 Sap Se Method and system for automated text anonymization
US10599774B1 (en) * 2018-02-26 2020-03-24 Facebook, Inc. Evaluating content items based upon semantic similarity of text
CN110555131B (zh) * 2018-03-27 2023-04-07 阿里巴巴(中国)有限公司 内容推荐方法、内容推荐装置和电子设备
CN110555157B (zh) * 2018-03-27 2023-04-07 阿里巴巴(中国)有限公司 内容推荐方法、内容推荐装置和电子设备
CN110555135B (zh) * 2018-03-27 2023-04-07 阿里巴巴(中国)有限公司 内容推荐方法、内容推荐装置和电子设备
US11636287B2 (en) * 2018-03-28 2023-04-25 Intuit Inc. Learning form-based information classification
US11715042B1 (en) 2018-04-20 2023-08-01 Meta Platforms Technologies, Llc Interpretability of deep reinforcement learning models in assistant systems
US11886473B2 (en) 2018-04-20 2024-01-30 Meta Platforms, Inc. Intent identification for agent matching by assistant systems
US11307880B2 (en) 2018-04-20 2022-04-19 Meta Platforms, Inc. Assisting users with personalized and contextual communication content
US10782986B2 (en) 2018-04-20 2020-09-22 Facebook, Inc. Assisting users with personalized and contextual communication content
US11676220B2 (en) 2018-04-20 2023-06-13 Meta Platforms, Inc. Processing multimodal user input for assistant systems
RU2686000C1 (ru) * 2018-06-20 2019-04-23 Общество с ограниченной ответственностью "Аби Продакшн" Извлечение информационных объектов с использованием комбинации классификаторов, анализирующих локальные и нелокальные признаки
CN109461039A (zh) * 2018-08-28 2019-03-12 厦门快商通信息技术有限公司 一种文本处理方法及智能客服方法
US11580301B2 (en) * 2019-01-08 2023-02-14 Genpact Luxembourg S.à r.l. II Method and system for hybrid entity recognition
US11341332B2 (en) * 2019-04-29 2022-05-24 Bae Systems Information And Electronic Systems Integration Inc. System for automated generation of Q-Codes
CN110222341A (zh) * 2019-06-10 2019-09-10 北京百度网讯科技有限公司 文本分析方法及装置
US11520985B2 (en) 2019-07-31 2022-12-06 International Business Machines Corporation Named entity recognition
US11481605B2 (en) 2019-10-25 2022-10-25 Servicenow Canada Inc. 2D document extractor
US11625535B1 (en) 2019-12-05 2023-04-11 American Express Travel Related Services Company, Inc. Computer-based systems having data structures configured to execute SIC4/SIC8 machine learning embedded classification of entities and methods of use thereof
CN111062216B (zh) * 2019-12-18 2021-11-23 腾讯科技(深圳)有限公司 命名实体识别方法、装置、终端及可读介质
US11625421B1 (en) * 2020-04-20 2023-04-11 GoLaw LLC Systems and methods for generating semantic normalized search results for legal content
US11704580B2 (en) 2020-05-31 2023-07-18 International Business Machines Corporation Automated combination of predictions made by different prediction systems
CN111651994B (zh) * 2020-06-03 2023-09-19 浙江同花顺智能科技有限公司 一种信息抽取方法、装置、电子设备和存储介质
CN112347782A (zh) * 2020-09-29 2021-02-09 第四范式(北京)技术有限公司 实体识别方法和系统
CN112395881B (zh) * 2020-11-27 2022-12-13 北京筑龙信息技术有限责任公司 物料标签的构建方法、装置、可读存储介质及电子设备
CN112801010B (zh) * 2021-02-07 2023-02-14 华南理工大学 一种针对实际ocr场景下的视觉富文档信息抽取方法
CN118284895A (zh) * 2021-10-01 2024-07-02 施耐德电气美国股份有限公司 维护数据净化
CN114154504B (zh) * 2021-12-06 2024-08-13 宜昌金辉大数据产业发展有限公司 一种基于多信息增强的中文命名实体识别算法
CN114238573B (zh) * 2021-12-15 2023-09-22 平安科技(深圳)有限公司 基于文本对抗样例的信息推送方法及装置
CN114722822B (zh) * 2022-03-22 2024-01-19 平安科技(深圳)有限公司 命名实体识别方法、装置、设备和计算机可读存储介质
US11973875B2 (en) * 2022-09-29 2024-04-30 Byt, Inc. Computer systems and computer-implemented methods utilizing digital resource accessing mechanism schema for digital tokens
ES2933625A1 (es) * 2022-10-29 2023-02-10 Kallisto Ai Sl Metodo y sistema utilizando tecnicas de inteligencia artificial general para la segmentacion de usuarios

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080091405A1 (en) * 2006-10-10 2008-04-17 Konstantin Anisimovich Method and system for analyzing various languages and constructing language-independent semantic structures
US20090157385A1 (en) * 2007-12-14 2009-06-18 Nokia Corporation Inverse Text Normalization
RU2399959C2 (ru) * 2008-10-29 2010-09-20 Закрытое акционерное общество "Авикомп Сервисез" Способ автоматизированной обработки текста на естественном языке путем его семантической индексации, способ автоматизированной обработки коллекции текстов на естественном языке путем их семантической индексации и машиночитаемые носители
US20110137636A1 (en) * 2009-12-02 2011-06-09 Janya, Inc. Context aware back-transliteration and translation of names and common phrases using web resources

Family Cites Families (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2144556C1 (ru) 1995-06-07 2000-01-20 Элкор Корпорейшн Способ разделения газового потока и устройство для его осуществления (варианты)
US6076051A (en) 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
US6085187A (en) 1997-11-24 2000-07-04 International Business Machines Corporation Method and apparatus for navigating multiple inheritance concept hierarchies
US7711672B2 (en) 1998-05-28 2010-05-04 Lawrence Au Semantic network methods to disambiguate natural language meaning
US6512522B1 (en) 1999-04-15 2003-01-28 Avid Technology, Inc. Animation of three-dimensional characters along a path for motion video sequences
US6657625B1 (en) 1999-06-09 2003-12-02 Microsoft Corporation System and method of caching glyphs for display by a remote terminal
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US6661417B1 (en) 2000-08-28 2003-12-09 Dynalab Inc. System and method for converting an outline font into a glyph-based font
US7860706B2 (en) 2001-03-16 2010-12-28 Eli Abir Knowledge system method and appparatus
US20030052749A1 (en) 2001-09-04 2003-03-20 In Kui Cho Resonator, method for manufacturing filter by using resonator and filter manufactured by the same method
EP1473639A1 (en) 2002-02-04 2004-11-03 Celestar Lexico-Sciences, Inc. Document knowledge management apparatus and method
US7106905B2 (en) 2002-08-23 2006-09-12 Hewlett-Packard Development Company, L.P. Systems and methods for processing text-based electronic documents
GB0306877D0 (en) 2003-03-25 2003-04-30 British Telecomm Information retrieval
US8014997B2 (en) 2003-09-20 2011-09-06 International Business Machines Corporation Method of search content enhancement
JP2005165958A (ja) 2003-12-05 2005-06-23 Ibm Japan Ltd 情報検索システム、情報検索支援システム及びその方法並びにプログラム
US7299407B2 (en) 2004-08-24 2007-11-20 International Business Machines Corporation Marking and annotating electronic documents
US7505989B2 (en) 2004-09-03 2009-03-17 Biowisdom Limited System and method for creating customized ontologies
US7493333B2 (en) 2004-09-03 2009-02-17 Biowisdom Limited System and method for parsing and/or exporting data from one or more multi-relational ontologies
US7496593B2 (en) 2004-09-03 2009-02-24 Biowisdom Limited Creating a multi-relational ontology having a predetermined structure
US8335753B2 (en) 2004-11-03 2012-12-18 Microsoft Corporation Domain knowledge-assisted information processing
KR100682897B1 (ko) 2004-11-09 2007-02-15 삼성전자주식회사 사전 업데이트 방법 및 그 장치
NO20052215L (no) 2005-05-06 2006-11-07 Fast Search & Transfer Asa Fremgangsmate til bestemmelse av kontekstuell sammendragsinformasjon over dokumenter
US20060259442A1 (en) 2005-05-17 2006-11-16 International Business Machines Corporation System method and program product to estimate cost of integrating and utilizing heterogeneous data sources
US7739218B2 (en) 2005-08-16 2010-06-15 International Business Machines Corporation Systems and methods for building and implementing ontology-based information resources
US8225380B2 (en) 2006-05-25 2012-07-17 Celltrust Corporation Methods to authenticate access and alarm as to proximity to location
US8065655B1 (en) 2006-06-20 2011-11-22 International Business Machines Corporation System and method for the autogeneration of ontologies
US7668791B2 (en) 2006-07-31 2010-02-23 Microsoft Corporation Distinguishing facts from opinions using a multi-stage approach
US9069750B2 (en) 2006-10-10 2015-06-30 Abbyy Infopoisk Llc Method and system for semantic searching of natural language texts
US9471562B2 (en) 2006-10-10 2016-10-18 Abbyy Infopoisk Llc Method and system for analyzing and translating various languages with use of semantic hierarchy
US9645993B2 (en) 2006-10-10 2017-05-09 Abbyy Infopoisk Llc Method and system for semantic searching
US7877343B2 (en) * 2007-04-02 2011-01-25 University Of Washington Through Its Center For Commercialization Open information extraction from the Web
US8140557B2 (en) 2007-05-15 2012-03-20 International Business Machines Corporation Ontological translation of abstract rules
US7983902B2 (en) 2007-08-23 2011-07-19 Google Inc. Domain dictionary creation by detection of new topic words using divergence value comparison
US8239342B2 (en) 2007-10-05 2012-08-07 International Business Machines Corporation Method and apparatus for providing on-demand ontology creation and extension
US8140535B2 (en) 2007-10-23 2012-03-20 International Business Machines Corporation Ontology-based network search engine
US8041702B2 (en) 2007-10-25 2011-10-18 International Business Machines Corporation Ontology-based network search engine
US8336024B2 (en) 2007-11-08 2012-12-18 International Business Machines Corporation Extracting ontological information from software design data
JP5490010B2 (ja) 2007-11-19 2014-05-14 インターナショナル・ビジネス・マシーンズ・コーポレーション 記述論理ファイル・システムを用いて情報を格納する方法、システムおよびコンピュータ・プログラム
CN101441561B (zh) 2007-11-23 2012-05-23 国际商业机器公司 基于上下文模型生成面向服务架构的策略的方法和装置
US7991760B2 (en) 2008-02-08 2011-08-02 International Business Machines Corporation Constructing a domain-specific ontology by mining the web
US20110043528A1 (en) 2009-08-24 2011-02-24 Apple Inc. Cache management for glyph display
US8489390B2 (en) 2009-09-30 2013-07-16 Cisco Technology, Inc. System and method for generating vocabulary from network data
US8285711B2 (en) 2009-11-24 2012-10-09 International Business Machines Corporation Optimizing queries to hierarchically structured data
US8484141B2 (en) 2010-02-02 2013-07-09 International Business Machines Corporation Evaluating ontologies
US8874432B2 (en) * 2010-04-28 2014-10-28 Nec Laboratories America, Inc. Systems and methods for semi-supervised relationship extraction
US8250101B2 (en) 2010-05-27 2012-08-21 International Business Machines Corporation Ontology guided reference data discovery
US8316006B2 (en) 2010-06-30 2012-11-20 International Business Machines Corporation Creating an ontology using an online encyclopedia and tag cloud
US9135241B2 (en) * 2010-12-08 2015-09-15 At&T Intellectual Property I, L.P. System and method for learning latent representations for natural language tasks
US8566363B2 (en) 2011-02-25 2013-10-22 Empire Technology Development Llc Ontology expansion
US8909624B2 (en) 2011-05-31 2014-12-09 Cisco Technology, Inc. System and method for evaluating results of a search query in a network environment
US8918431B2 (en) 2011-09-09 2014-12-23 Sri International Adaptive ontology
USD665414S1 (en) 2011-09-12 2012-08-14 Microsoft Corporation Display screen with animated graphical user interface
US9396724B2 (en) * 2013-05-29 2016-07-19 Tencent Technology (Shenzhen) Company Limited Method and apparatus for building a language model

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080091405A1 (en) * 2006-10-10 2008-04-17 Konstantin Anisimovich Method and system for analyzing various languages and constructing language-independent semantic structures
US20090157385A1 (en) * 2007-12-14 2009-06-18 Nokia Corporation Inverse Text Normalization
RU2399959C2 (ru) * 2008-10-29 2010-09-20 Закрытое акционерное общество "Авикомп Сервисез" Способ автоматизированной обработки текста на естественном языке путем его семантической индексации, способ автоматизированной обработки коллекции текстов на естественном языке путем их семантической индексации и машиночитаемые носители
US20110137636A1 (en) * 2009-12-02 2011-06-09 Janya, Inc. Context aware back-transliteration and translation of names and common phrases using web resources

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2691837C1 (ru) * 2018-09-20 2019-06-18 Юрий Михайлович Акаткин Способ автоматизированного проектирования приложений
WO2020091618A1 (ru) * 2018-10-30 2020-05-07 федеральное государственное автономное образовательное учреждение высшего образования "Московский физико-технический институт (государственный университет)" Система определения именованных сущностей с динамическими параметрами
RU2726739C1 (ru) * 2019-07-29 2020-07-15 Бейджин Сяоми Интеллиджент Текнолоджи Ко., Лтд. Способ, аппарат и устройство для обработки естественного языка
US11501078B2 (en) 2019-07-29 2022-11-15 Beijing Xiaomi Intelligent Technology Co., Ltd. Method and device for performing reinforcement learning on natural language processing model and storage medium
WO2021075998A1 (ru) * 2019-10-16 2021-04-22 Публичное Акционерное Общество "Сбербанк России" Система классификации данных для выявления конфиденциальной информации в тексте
RU2751993C1 (ru) * 2020-09-09 2021-07-21 Глеб Валерьевич Данилов Способ извлечения информации из неструктурированных текстов, написанных на естественном языке
RU2750852C1 (ru) * 2020-10-19 2021-07-05 Федеральное государственное бюджетное образовательное учреждение высшего образования «Национальный исследовательский Мордовский государственный университет им. Н.П. Огарёва» Способ атрибутизации частично структурированных текстов для формирования нормативно-справочной информации
RU2822992C1 (ru) * 2021-01-11 2024-07-17 Биго Текнолоджи Пте. Лтд. Способ и устройство для разделения на слова, улучшенные с помощью межъязыковых данных
RU2766821C1 (ru) * 2021-02-10 2022-03-16 Общество с ограниченной ответственностью " МЕНТАЛОГИЧЕСКИЕ ТЕХНОЛОГИИ" Способ автоматизированного извлечения смысловых компонентов из сложносочинённых предложений естественно-язычных текстов в системах машинного перевода и устройство для его реализации
RU2769427C1 (ru) * 2021-04-05 2022-03-31 Анатолий Владимирович Буров Способ автоматизированного анализа текста и подбора релевантных рекомендаций по улучшению его читабельности
RU2766060C1 (ru) * 2021-05-18 2022-02-07 Ооо "Менталогические Технологии" Способ автоматизированного извлечения смысловых компонент из сложносочинённых предложений естественно-язычных текстов в системах машинного перевода и устройство для его реализации

Also Published As

Publication number Publication date
US9588960B2 (en) 2017-03-07
RU2014101126A (ru) 2015-07-20
US20150199333A1 (en) 2015-07-16

Similar Documents

Publication Publication Date Title
RU2665239C2 (ru) Автоматическое извлечение именованных сущностей из текста
US9727553B2 (en) System and method for generating and using user semantic dictionaries for natural language processing of user-provided text
US9588962B2 (en) System and method for generating and using user ontological models for natural language processing of user-provided text
Gambhir et al. Recent automatic text summarization techniques: a survey
RU2628431C1 (ru) Подбор параметров текстового классификатора на основе семантических признаков
US9495358B2 (en) Cross-language text clustering
Medhat et al. Sentiment analysis algorithms and applications: A survey
RU2564629C1 (ru) Способ кластеризации результатов поиска в зависимости от семантики
RU2571373C2 (ru) Метод анализа тональности текстовых данных
RU2686000C1 (ru) Извлечение информационных объектов с использованием комбинации классификаторов, анализирующих локальные и нелокальные признаки
RU2636098C1 (ru) Использование глубинного семантического анализа текстов на естественном языке для создания обучающих выборок в методах машинного обучения
US9588958B2 (en) Cross-language text classification
RU2679988C1 (ru) Извлечение информационных объектов с помощью комбинации классификаторов
US9053090B2 (en) Translating texts between languages
Mahajani et al. A comprehensive survey on extractive and abstractive techniques for text summarization
RU2601166C2 (ru) Разрешение анафоры на основе технологии глубинного анализа
RU2640297C2 (ru) Определение степеней уверенности, связанных со значениями атрибутов информационных объектов
Kocmi Exploring benefits of transfer learning in neural machine translation
Batsuren et al. A large and evolving cognate database
CN114997288A (zh) 一种设计资源关联方法
Malik et al. NLP techniques, tools, and algorithms for data science
RU2563148C2 (ru) Система и метод семантического поиска
Ezhilarasi et al. Designing the neural model for POS tag classification and prediction of words from ancient stone inscription script
Ali et al. Word embedding based new corpus for low-resourced language: Sindhi
Feria et al. Constructing a word similarity graph from vector based word representation for named entity recognition

Legal Events

Date Code Title Description
HZ9A Changing address for correspondence with an applicant
HE9A Changing address for correspondence with an applicant
QB4A Licence on use of patent

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20201211

QC41 Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20220311