RU2640718C1 - Верификация атрибутов информационных объектов - Google Patents
Верификация атрибутов информационных объектов Download PDFInfo
- Publication number
- RU2640718C1 RU2640718C1 RU2016150632A RU2016150632A RU2640718C1 RU 2640718 C1 RU2640718 C1 RU 2640718C1 RU 2016150632 A RU2016150632 A RU 2016150632A RU 2016150632 A RU2016150632 A RU 2016150632A RU 2640718 C1 RU2640718 C1 RU 2640718C1
- Authority
- RU
- Russia
- Prior art keywords
- value
- attribute
- confidence
- degree
- natural language
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/027—Frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
Изобретение относится к области использования верифицированных пользователем данных. Технический результат – повышение точности извлечения информации из текстов на естественном языке и обеспечение пользователю возможности верифицировать достоверность извлекаемых данных. Способ извлечения информации включает: получение первого значения атрибута и второго значения атрибута, связанного с информационным объектом, представляющим сущность, относящуюся к тексту на естественном языке; получение первого значения степени уверенности, соответствующей первому значению атрибута, и второго значения степени уверенности, соответствующей второму значению атрибута, где указанная степень уверенности выражает степень ассоциативной связи с по меньшей мере одним информационным объектом; в случае, если первое значение степени уверенности ниже заданного порогового значения, вывод первого значения атрибута; в ответ на получение через графический интерфейс пользователя для верификации первого отклика, верифицирующего первое значение атрибута, выполнение по меньшей мере одного из следующих действий: повышение первого значения степени уверенности или задание первого значения степени уверенности для второго заранее определенного значения. 3 н. и 20 з.п. ф-лы, 16 ил.
Description
ОБЛАСТЬ ТЕХНИКИ
[0001] Настоящее изобретение относится к вычислительным системам, а в частности - к системам и способам использования верифицированных пользователем данных для дообучения моделей уверенности.
УРОВЕНЬ ТЕХНИКИ
[0002] Интерпретация неструктурированной или слабо структурированной информации, представленной в виде текста на естественном языке, может быть затруднена из-за неоднозначности, присущей конструкциям естественного языка. Эта неоднозначность может быть вызвана, например, многозначностью слов и фраз естественного языка и (или) определенными особенностями механизмов естественного языка, которые используются для установления связей между словами и (или) группами слов в предложениях на естественном языке (таких как падежи существительных, порядок слов и т.д.).
РАСКРЫТИЕ ИЗОБРЕТЕНИЯ
[0003] В соответствии с одним или более вариантами реализации настоящего изобретения пример способа верификации атрибутов информационных объектов может включать: получение первого значения атрибута и второго значения атрибута, связанного с информационным объектом, представляющим сущность, относящуюся к тексту на естественном языке; получение первой степени уверенности, соответствующей первому значению атрибута, и второй степени уверенности, соответствующей второму значению атрибута; и, в случае, если первая степень уверенности ниже порогового значения уверенности, вывод первого значения атрибута с использованием графического интерфейса пользователя для верификации; с целью получения через графический интерфейс пользователя для верификации первого отклика, верифицирующего первое значение атрибута, путем выполнения по меньшей мере одного из перечисленных действий: повышение первой степени уверенности за счет первого заранее определенного значения или задание первой степени уверенности для второго заранее определенного значения; вывод второго значения атрибута с использованием графического интерфейса пользователя для верификации; и, при неполучении второго отклика, верифицирующего второе значение атрибута, через графический интерфейс пользователя для верификации до инициирующего события, выполнение по меньшей мере одного из следующих действий: повышение второй степени уверенности с помощью третьего заранее определенного значения или задание второй степени уверенности с помощью четвертого заранее определенного значения, где третье заранее определенное значение меньше, чем первое заранее определенное значение, и четвертое заранее определенное значение меньше, чем второе заранее определенное значение.
[0004] В соответствии с одним или более вариантами реализации настоящего изобретения пример системы определения степени уверенности для значений атрибутов информационных объектов может включать: память и процессор, соединенный с памятью, при этом процессор выполнен с возможностью: получения первого значения атрибута и второго значения атрибута, связанного с информационным объектом, представляющим сущность, относящуюся к тексту на естественном языке; получения первой степени уверенности, соответствующей первому значению атрибута, и второй степени уверенности, соответствующей второму значению атрибута; и, в случае, если первая степень уверенности ниже порогового значения уверенности, вывода первого значения атрибута с использованием графического интерфейса пользователя для верификации; с целью получения через графический интерфейс пользователя для верификации первого отклика, верифицирующего первое значение атрибута, путем выполнения по меньшей мере одного из следующих действий: повышение первой степени уверенности за счет первого заранее определенного значения или задание первой степени уверенности для второго заранее определенного значения; вывода второго значения атрибута с использованием графического интерфейса пользователя для верификации; и, при неполучении второго отклика, верифицирующего второе значение атрибута, через графический интерфейс пользователя для верификации до инициирующего события, выполнения по меньшей мере одного из следующих действий: повышение второй степени уверенности с помощью третьего заранее определенного значения или задание второй степени уверенности с помощью четвертого заранее определенного значения, где третье заранее определенное значение меньше, чем первое заранее определенное значение, и четвертое заранее определенное значение меньше, чем второе заранее определенное значение.
[0005] В соответствии с одним или более вариантами реализации настоящего изобретения пример машиночитаемого энергонезависимого носителя данных может содержать выполняемые инструкции, которые при выполнении вычислительной системой приведут к следующим действиям: получение первого значения атрибута и второго значения атрибута, связанного с информационным объектом, представляющим сущность, относящуюся к тексту на естественном языке; получение первой степени уверенности, соответствующей первому значению атрибута, и второй степени уверенности, соответствующей второму значению атрибута; и, в случае, если первая степень уверенности ниже порогового значения уверенности, вывод первого значения атрибута с использованием графического интерфейса пользователя для верификации; с целью получения через графический интерфейс пользователя для верификации первого отклика, верифицирующего первое значение атрибута, путем выполнения по меньшей мере одного из следующих действий: повышение первой степени уверенности за счет первого заранее определенного значения или задание первой степени уверенности для второго заранее определенного значения; вывод второго значения атрибута с использованием графического интерфейса пользователя для верификации; и, при неполучении второго отклика, верифицирующего второе значение атрибута, через графический интерфейс пользователя для верификации до инициирующего события, выполнение по меньшей мере одного из следующих действий: повышение второй степени уверенности с помощью третьего заранее определенного значения или задание второй степени уверенности с помощью четвертого заранее определенного значения, где третье заранее определенное значение меньше, чем первое заранее определенное значение, и четвертое заранее определенное значение меньше, чем второе заранее определенное значение.
Технический результат от внедрения изобретения состоит в повышении точности извлекаемой из текстов на естественном языке информации и получении возможности для пользователя системы извлечения информации контролировать и верифицировать достоверность извлекаемых данных.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[0006] Настоящее изобретение иллюстрируется с помощью примеров, а не путем ограничения, его проще понять со ссылкой на приведенное ниже подробное описание при рассмотрении в связи с чертежами, на которых:
[0007] На Фиг. 1 приведена блок-схема одного иллюстративного примера способа использования верифицированных пользователем данных для обучения моделей уверенности в соответствии с одним или более вариантами реализации настоящего изобретения;
[0008] На Фиг. 2 схематически показана разделительная гиперплоскость в гиперпространстве механизмов, связанных с набором продукционных правил, в соответствии с одним или более вариантами реализации настоящего изобретения;
[0009] На Фиг. 3 схематично показан графический интерфейс пользователя (GUI), используемый для получения ввода пользователя для подтверждения или изменения значений атрибутов, в соответствии с одним или более вариантами реализации настоящего изобретения;
[00010] На Фиг. 4 приведена блок-схема одного иллюстративного примера способа верификации атрибутов информационных объектов, использующихся для обучения моделей уверенности в соответствии с одним или более вариантами реализации настоящего изобретения;
[00011] На Фиг. 5 приведена блок-схема иллюстративного примера способа выполнения семантико-синтаксического анализа предложения на естественном языке в соответствии с одним или более вариантами реализации настоящего изобретения.
[00012] На Фиг. 6 схематически иллюстрируется пример лексико-морфологической структуры предложения в соответствии с одним или более вариантами реализации настоящего изобретения;
[00013] На Фиг. 7 схематически показаны языковые описания, представляющие модель естественного языка в соответствии с одним или более вариантами реализации настоящего изобретения.
[00014] На Фиг. 8 схематически иллюстрируются примеры морфологических описаний в соответствии с одним или более вариантами реализации настоящего изобретения;
[00015] На Фиг. 9 схематически иллюстрируются примеры синтаксических описаний в соответствии с одним или более вариантами реализации настоящего изобретения;
[00016] На Фиг. 10 схематически иллюстрируются примеры семантических описаний в соответствии с одним или более вариантами реализации настоящего изобретения;
[00017] На Фиг. 11 схематически иллюстрируются примеры лексических описаний в соответствии с одним или более вариантами реализации настоящего изобретения;
[00018] На Фиг. 12 схематически иллюстрируются примеры структур данных, которые могут быть использованы в рамках одного или более способов, реализованных в соответствии с одним или более вариантами реализации настоящего изобретения;
[00019] На Фиг. 13 схематически иллюстрируется пример графа обобщенных составляющих в соответствии с одним или более вариантами реализации настоящего изобретения;
[00020] На Фиг. 14 показан пример синтаксической структуры, соответствующей предложению, приведенному на Фиг. 13;
[00021] На Фиг. 15 приведена семантическая структура, соответствующая синтаксической структуре, показанной на Фиг. 14;
[00022] На Фиг. 16 показана схема примера вычислительной системы, реализующей методы настоящего изобретения.
ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ РЕАЛИЗАЦИИ
[00023] Ниже описаны способы и системы для использования верифицированных пользователем данных для дообучения моделей уверенности в системах извлечения информации.
[00024] В настоящем документе термин «вычислительная система» означает устройство обработки данных, оснащенное универсальным процессором, памятью и по меньшей мере одним интерфейсом связи. Примерами вычислительных систем, которые могут использовать описанные в этом документе методы, являются, в частности, настольные компьютеры, ноутбуки, планшетные компьютеры и смартфоны.
[00025] Извлечение информации является одной из важных операций автоматизированной обработки текстов на естественном языке. Информация, извлекаемая из документов на естественном языке, может быть представлена в виде одного или более объектов данных, содержащих описания объектов, связи объектов и (или) утверждения, связанные с объектами. Распознавание именованных сущностей (NER) (также известное под названиями: идентификация сущностей, формирование сущностей и извлечение сущностей) представляет собой задачу по извлечению информации, в ходе выполнения которой производится выявление токенов в тексте на естественном языке и их классификация по заранее определенным категориям, таким как имена людей, названия организаций, географические названия, представление времени, количества, денежные суммы, проценты и т.д.
[00026] Информационный объект может представлять материальный реальный объект (например, человека или предмет) или определенные характеристики, связанные с одним или более реальными объектами (например, числовой атрибут или качество). Информационный объект может быть связан с концептом онтологии (также «класс онтологии» или просто «класс»), который может быть связан с определенным семантическим классом. Множество семантических классов может быть организовано в иерархию семантических классов, экземпляры которой представляют информационные объекты и их отношения (например, иерархические отношения предка и потомка).
[00027] Атрибут информационного объекта может отражать свойство или характеристику информационного объекта. В связи с вышесказанным атрибут информационного объекта может быть представлен перечислимым атрибутом или неперечислимым атрибутом. По меньшей мере некоторые из атрибутов информационного объекта могут быть необязательными, но у некоторых информационных атрибутов может существовать по меньшей мере один обязательный атрибут. Информационный объект может иметь несколько атрибутов одного типа, при этом некоторые атрибуты могут иметь только одно возможное значение атрибута для любых информационных объектов.
[00028] В иллюстративном примере отображаемое информационным объектом свойство или характеристика могут указывать на отношения между одним информационным объектом и одним или более другими информационными объектами. В различных иллюстративных примерах информационный объект может не иметь ни одного, иметь одно или несколько отношений с другими информационными объектами. Такие отношения могут быть установлены между двумя объектами, между одним объектом и группой из нескольких объектов и между одной группой из нескольких объектов и другой группой из нескольких объектов. Определенные последовательности связанных объектов могут быть линейного или цикличного типа.
[00029] В различных иллюстративных примерах атрибут информационного объекта может быть представлен перечислимым атрибутом или неперечислимым атрибутом. По меньшей мере некоторые из атрибутов информационного объекта могут быть необязательными, но у некоторых информационных атрибутов может существовать по меньшей мере один обязательный атрибут. Информационный объект может иметь несколько атрибутов одного типа, при этом некоторые атрибуты могут иметь только одно возможное значение атрибута для любых информационных объектов.
[00030] В иллюстративном примере информационный объект, связанный с онтологическим классом «человек», может иметь следующие атрибуты: имя, дата рождения, адрес и история трудоустройства. Атрибут имени может быть представлен строкой символов. Атрибут даты рождения может быть представлен строкой символов, одним или более числовыми значениями или специальным типом данных, используемым для представления дат. Атрибут адреса может быть представлен сложным атрибутом, указывающим на информационные объекты «улица», «город», «административный субъект» и «страна», а также номер дома на улице и, как вариант, номер квартиры по адресу проживания. Атрибут «история трудовой деятельности» может быть представлен одной или более записями о трудовой деятельности, каждая из которых ссылается на информационный объект «Работодатель» и указывает на даты трудоустройства и должность при трудоустройстве.
[00031] Некоторые отношения между информационными объектами могут называться «фактами». Примерами таких отношений могут быть работа лица X по найму в организационном подразделении Y, расположение объекта X в географической точке Y, приобретение организационной единицы X организационной единицей Y и т.д. Таким образом, факт может быть ассоциирован с одной или более категориями фактов. К примеру, факт, ассоциированный с неким лицом, может иметь отношение к дате его рождения, образованию, роду занятий, месту работы и т.д. В другом примере факт, связанный с коммерческой сделкой, может иметь отношение к типу сделки и к сторонам этой сделки, к обязательствам сторон, дате подписания договора, дате совершения сделки, расчетам по договору и т.д. Извлечение фактов предполагает выявление различных отношений между извлеченными информационными объектами.
[00032] Информационные объекты могут быть связаны с частями исходного текста на естественном языке, из которых были извлечены соответствующие объекты. Такие связи могут быть представлены, например, с помощью текстовых аннотаций, включающих предложения текста на естественном языке или их фрагменты, связанные с извлеченными информационными объектами. Аннотация может быть связана с конкретным информационным объектом или с определенными атрибутами информационного объекта.
[00033] Ввиду существующей неоднозначности конструкций некоторых естественных языков связывание атрибута с информационным объектом не всегда может быть точным; в этом случае оно может описываться степенью уверенности, которая может быть выражена в виде числового значения на заданной шкале (например, действительным числом в диапазоне от 0 до 1). В соответствии с одним или более вариантами реализации настоящего изобретения степень уверенности, связанная с определенным атрибутом, может быть определена путем вычисления функции уверенности, связанной с продукционными правилами, которые были использованы для получения атрибута. Область определения функции может быть представлена одним или более аргументами, отражающими различные аспекты процесса извлечения информации, включая идентификаторы продукционных правил, задействованных для получения рассматриваемого атрибута или родственных атрибутов, определенных признаков семантических классов, полученных при семантико-синтаксическом анализе исходного предложения, соответствующего информационному объекту, который характеризуется рассматриваемым атрибутом, и (или) другие характеристики процесса извлечения информации, как будет более подробно описано ниже в этом документе.
[00034] В определенных вариантах реализации извлечение информации может подразумевать применение набора продукционных правил к множеству независимых от языка семантических структур, представляющих предложения текста на естественном языке. Затем вычислительная система может определить степень уверенности, связанную с одним или более атрибутами информационных объектов путем вычисления функции уверенности, ассоциированной с набором продукционных правил.
[00035] Функция уверенности может быть представлена линейным классификатором, выдающим расстояние от информационного объекта до разделительной гиперплоскости в гиперпространстве признаков, связанных с набором продукционных правил. Значения параметров линейного классификатора могут быть определены с помощью методов машинного обучения. Обучающая выборка данных, используемая в методах машинного обучения, может содержать один или более текстов на естественном языке, в которых для некоторых объектов указаны соответствующие значения атрибутов (например, в тексте указаны семантические классы и/или онтологические классы отдельных слов). В определенных вариантах реализации обучающая выборка данных может дополнительно включать степени уверенности, связанные с соответствующими значениями атрибутов, при этом при определении значений параметров классификатора значению атрибута, имеющему более высокую степень уверенности, присваивается больший вес. В определенных вариантах реализации степени уверенности атрибутов в обучающей выборке данных могут быть подтверждены в ходе процесса верификации пользователем, как описано более подробно ниже в настоящем документе. Вычислительная система может с помощью обучающей выборки итеративно идентифицировать значения параметров линейного классификатора, которые оптимизируют выбранную целевую функцию (например, позволяют выбрать максимальное значение выбранной целевой функции, соответствующее числу текстов на естественном языке, которые можно правильно классифицировать, используя указанные значения параметров линейного классификатора).
[00036] Таким образом, описанные в настоящем документе системы и способы представляют усовершенствования функций универсальных или специализированных вычислительных устройств, достигаемые за счет использования верифицированной пользователем степени уверенности для информационных объектов в обучающих выборках данных, которые задействуются при идентификации значений функций классификатора, выдающих значения степени уверенности для информационных объектов и связанных с ними атрибутов. Различные аспекты упомянутых выше способов и систем подробно описаны ниже в этом документе с помощью примеров, а не способом ограничения.
[00037] На Фиг. 1 приведена блок-схема одного иллюстративного примера способа 100 для использования верифицированных пользователем данных для обучения моделей уверенности в соответствии с одним или более вариантами реализации настоящего изобретения. Способ 100 и/или каждая из его отдельных функций, стандартных программ, подпрограмм или операций могут выполняться одним или более процессоров вычислительной системы (например, вычислительная система 1000 на Фиг. 16), реализующей этот способ. В некоторых вариантах осуществления способ (100) может выполняться в одном потоке обработки. При альтернативном подходе способ 100 может осуществляться с использованием двух или более потоков обработки, при этом в каждом потоке реализована(о) одна (одно) или несколько отдельных функций, процедур, подпрограмм или действий этого способа. В одном из иллюстративных примеров потоки обработки, в которых реализован способ 100, могут быть синхронизированы (например, с использованием семафоров, критических секций и (или) других механизмов синхронизации потоков). При альтернативном подходе потоки обработки, в которых реализован способ 100, могут выполняться асинхронно по отношению друг к другу. Таким образом, несмотря на то, что Фиг. 1 и соответствующее описание содержат список операций для метода 100 в определенном порядке, в различных вариантах осуществления способа как минимум некоторые из описанных операций могут выполняться параллельно и (или) в случайно выбранном порядке.
[00038] На шаге 110 блок-схемы вычислительная система, реализующая способ 100, может выполнить семантико-синтаксический анализ исходного текста 120 на естественном языке, который может быть представлен, например, одним или более исходными документами. При семантико-синтаксическом анализе могут быть получены одна или более независимых от языка семантических структур 130, представляющих каждое предложение на естественном языке, как будет более подробно описано ниже в этом документе со ссылками на Фиг. 5-15. Для упрощения любое подмножество семантической структуры в этом документе мы будем называть «структурой» (а не «подструктурой»), если только не рассматривается отношение типа предок-потомок между двумя семантическими структурами.
[00039] На шаге 140 блок-схемы вычислительная система может проводить интерпретацию множества полученных семантических структур, используя набор продукционных правил для извлечения множества информационных объектов (к примеру, именованных сущностей) и их атрибутов. В определенных вариантах реализации извлеченные информационные объекты могут быть связаны с семантическими классами, представленными концептами заданной или динамически построенной онтологии.
[00040] Продукционные правила, используемые для интерпретации семантических структур, могут представлять собой правила интерпретации и правила идентификации. Правило интерпретации может содержать левую часть, представленную набором логических выражений, определенных на одном или более шаблонах семантической структуры, и правую часть, представленную одним или более утверждениями относительно информационных объектов, представляющих сущности, на которые имеется ссылка в тексте на естественном языке.
[00041] Шаблон семантической структуры может содержать некоторые элементы семантической структуры (например, принадлежность к определенному лексическому/семантическому классу, нахождение в некоторой поверхностной или глубинной позиции, наличие определенной граммемы или семантемы и т.д.). Отношения между элементами семантических структур могут задаваться с помощью одного или более логических выражений (конъюнкция, дизъюнкция и отрицание) и (или) операций, характеризующих взаимное расположение узлов на семантико-синтаксическом дереве. В одном из иллюстративных примеров такая операция может проверять один из узлов на принадлежность к поддереву другого узла.
[00042] Совпадение шаблона, определенного левой частью продукционного правила семантической структуры, с семантической структурой, представляющей по крайней мере часть предложения текста на естественном языке, может запускать правую часть продукционного правила. Правая часть продукционного правила может осуществлять связь одного или более атрибутов с представленными узлами информационными объектами. В одном из иллюстративных примеров правая часть правила интерпретации может представлять собой утверждение, устанавливающее ассоциативную связь между токеном из текста на естественном языке и категорией именованных сущностей.
[00043] Правило идентификации может использоваться для установления ассоциативной связи для пары информационных объектов, которые представляют одну и ту же сущность из реального мира. Правило идентификации - это продукционное правило, левая часть которого содержит одно или более логических выражений, указывающих на узлы семантического дерева, соответствующие информационным объектам. Если указанная пара информационных объектов удовлетворяет условиям, заданным логическими выражениями, то происходит слияние информационных объектов в один информационный объект.
[00044] В некоторых вариантах реализации изобретения вычислительная система после извлечения информационных объектов из фрагмента текста на естественном языке может разделять на составляющие кореференции и анафорические связи между токенами текста на естественном языке, которые были связаны ассоциативной связью с извлеченными информационными объектами. Термин «кореференция» в контексте настоящего документа означает конструкцию естественного языка, содержащую два или более токенов естественного языка, которые относятся к одной сущности (например, к одному и тому же лицу, предмету, месту или организации).
[00045] Несмотря на то, что в иллюстративном примере на Фиг. 1 извлечение информационных объектов и их отношений производится путем интерпретации множества семантических структур при помощи набора продукционных правил, в различных альтернативных вариантах реализации изобретения могут использоваться функции классификатора, в которых могут, наряду с лексическими и морфологическими признаками, использоваться синтаксические и (или) семантические признаки, полученные при семантико-синтаксическом анализе текста на естественном языке. В некоторых вариантах реализации изобретения всевозможные лексические, грамматические и (или) семантические атрибуты токена естественного языка могут использоваться в составе одной или более функций классификатора. Каждая функция классификатора может определять для токена естественного языка степень ассоциативной связи с определенной категорией информационных объектов. В некоторых вариантах реализации изобретения способ извлечения информационных объектов может предусматривать использование комбинаций продукционных правил с моделями классификаторов.
[00046] В некоторых вариантах реализации изобретения вычислительная система может представлять извлеченные информационные объекты и их отношения в виде RDF-графа 150. RDF (Resource Definition Framework - среда описания ресурса) присваивает каждому информационному объекту уникальный идентификатор и сохраняет информацию о таком объекте в виде наборов из трех элементов (триплетов) SPO, где S означает «субъект» и содержит идентификатор объекта, Р означает «предикат» и определяет некоторое свойство этого объекта, а О означает «объект» и хранит в себе значение рассматриваемого свойства данного объекта. Это значение может быть либо примитивным типом данных (примеры - строка, число, булево (логическое) значение), либо идентификатором другого объекта. В одном из иллюстративных примеров триплет SPO может ассоциировать токен из текста на естественном языке с категорией именованных сущностей.
[00047] На Фиг. 1 в блоке 160 вычислительная система может определять степени уверенности, связанные с одним или более атрибутами информационных объектов. Степени уверенности могут быть выражены в виде числовых значений на заданной шкале (например, в виде действительных чисел в диапазоне от 0 до 1). В соответствии с одним или более вариантами реализации настоящего изобретения степень уверенности, связанная с определенным атрибутом, может быть определена путем вычисления функции уверенности, связанной с набором продукционных правил. Область определения функции может быть представлена одним или более аргументами, отражающими различные аспекты процесса извлечения информации, указанного в блоке 140.
[00048] В некоторых вариантах реализации изобретения компьютерная система может дополнять объекты данных, соответствующие тексту на естественном языке (например, объекты данных, представленные RDF-графом 150), соответствующими значениями степени уверенности с атрибутами объектов, в результате чего будет получен дополненный RDF-граф 165.
[00049] В одном из иллюстративных примеров степень уверенности, связанная с определенным атрибутом, может зависеть от надежности отдельных продукционных правил, которые используются для получения этого атрибута. В одном из иллюстративных примеров конкретное правило может использовать шаблон высокого уровня абстракции, что может привести к ложноположительной идентификации совпадения семантических поддеревьев. Например, правило может объявлять все сущности, связанные с дочерними семантическими классами семантического класса «Человек», прямо связанными с семантическим классом-предком, что может привести к ложноположительному связыванию названия сообщества, например, футбольной команды (что опосредованно, за счет связи с игроками команды, относящимися к классу «Человек») с классом «Человек». Поэтому степень уверенности, связанная с данным атрибутом, может быть снижена, если для получения атрибута было использовано определенное продукционное правило. В соответствии с одним или более вариантами реализации настоящего изобретения такие продукционные правила и их вклад в степень уверенности атрибута могут быть определены путем использования методов машинного обучения, как будет более подробно описано ниже в этом документе.
[00050] В другом иллюстративном примере на степень уверенности, связанную с данным атрибутом, может оказывать влияние многозначность определенных лексем, обнаруженных в тексте на естественном языке. Например, serve - это лексема, относящаяся к нескольким семантическим классам, и правильное снятие семантической неоднозначности для нее возможно не всегда. Неправильное отнесение лексемы к семантическому классу может привести к ложноположительной идентификации совпадения семантических поддеревьев. Таким образом, степень уверенности, связанная с данным атрибутом, может быть уменьшена, если в тексте на естественном языке будут обнаружены определенные семантические классы, граммемы, семантемы и (или) глубинные или поверхностные позиции. В соответствии с одним или более вариантами реализации настоящего изобретения такие семантические классы и их вклад в степень уверенности атрибута могут быть определены путем использования методов машинного обучения, как будет более подробно описано ниже в этом документе.
[00051] В другом иллюстративном примере одно и то же продукционное правило может применяться к объектам определенных семантических классов, их предкам или потомкам (так же как, например, при разрешении анафорических конструктов). Обычно применение продукционного правила к предку или потомку определенного семантического класса, а не к объекту, прямо ассоциируемому с этим семантическим классом, дает менее надежные результаты. В соответствии с одним или более вариантами реализации настоящего изобретения такие семантические классы и их вклад в степень уверенности атрибута могут быть определены путем использования методов машинного обучения, как будет более подробно описано ниже в этом документе.
[00052] В другом иллюстративном примере на степень уверенности, связанную с данным атрибутом, могут влиять значения рейтинга одной или более независимых от языка семантических структур, полученных в результате семантико-синтаксического анализа текста на естественном языке. В соответствии с одним или более вариантами реализации настоящего изобретения влияние низких значений рейтинга на степень уверенности атрибута может быть определено путем использования методов машинного обучения, как будет более подробно описано ниже в этом документе.
[00053] Как было указано выше, текст на естественном языке может содержать множество ссылок на один и тот же информационный объект и эти ссылки могут использовать различные лексемы (например, ссылаясь на человека по его полному имени, имени и (или) должности внутри организации). К этим языковым конструкциям можно применить одно или более правил идентификации, чтобы объединить указанные информационные объекты. Степень уверенности, связанная с определенным атрибутом, может зависеть от надежности отдельных правил идентификации, которые используются для получения этого атрибута. Например, правила идентификации, которые связывают несколько атрибутов объединяемых объектов, могут давать более надежные результаты по сравнению с правилами идентификации, которые относятся к меньшему количеству атрибутов.
[00054] В другом иллюстративном примере степень уверенности, связанная с атрибутом определенного объекта, может увеличиться, если указать, что группа объектов, включающая рассматриваемый объект и один или более связанных с ним объектов, совместно использует некоторые атрибуты. Например, если слово Apple связано с одним или более объектами, относящимися к информационным технологиям, степень уверенности классификации этого слова как названия компании может быть увеличена.
[00055] Как было указано выше, степень уверенности, относящаяся к определенному атрибуту, может быть определена путем вычисления функции уверенности, связанной с набором продукционных правил. В отдельных вариантах реализации изобретения функция уверенности может быть представлена линейным классификатором, выдающим расстояние от информационного объекта до разделительной гиперплоскости в гиперпространстве признаков, связанных с набором продукционных правил, как схематически показано на Фиг. 2. В различных иллюстративных примерах признаки могут отражать не только указанные выше, но и другие аспекты процесса извлечения информации, указанного в блоке 140.
[00056] На Фиг. 2 схематически показан пример линейного классификатора, создающего разделительную гиперплоскость 220 в двухмерном гиперпространстве 207, которая может быть определена значениями F1 и F2, которые соответствуют признакам, связанным с набором продукционных правил. Таким образом, каждый объект может быть представлен точкой в двухмерном гиперпространстве 207, такой, что координаты точки соответствуют значениям F1 и F2 соответственно. Например, объект, имеющий значения признаков F1=f1 и F2=f2, может быть представлен точкой 201 с координатами (f1, f2).
[00057] Линейный классификатор может быть представлен функцией wT*х=b, где х - вектор, представляющий значения признаков объекта, w - вектор параметра, который вместе со значением b определяет границу решений. Таким образом, объект может ассоциироваться с определенным классом, если wT*х>b, а может не ассоциироваться с этим классом в противном случае. В иллюстративном примере на Фиг. 2 объекты 231 и 233 принадлежат к конкретному классу С, а объекты 211 и 213 не принадлежат к этому классу.
[00058] Значения параметров линейного классификатора (например, значения w и b) могут быть определены с помощью методов машинного обучения. Обучающая выборка данных, используемая в методах машинного обучения, может содержать один или более текстов на естественном языке, в которых для некоторых объектов указаны соответствующие значения атрибутов (например, в тексте указаны семантические классы отдельных слов). В определенных вариантах реализации обучающая выборка данных может дополнительно включать степени уверенности, связанные с соответствующими значениями атрибутов, при этом при определении значений параметров классификатора значению атрибута, имеющему более высокую степень уверенности, присваивается больший вес. В определенных вариантах реализации степени уверенности атрибутов в обучающей выборке данных могут быть подтверждены в ходе процесса верификации пользователем, как описано более подробно ниже в настоящем документе. Вычислительная система может с помощью обучающей выборки итеративно идентифицировать значения параметров линейного классификатора, которые оптимизируют выбранную целевую функцию (например, позволяют выбрать максимальное значение функции приспособленности, соответствующее числу текстов на естественном языке, которые можно правильно классифицировать, используя указанные значения параметров линейного классификатора).
[00059] В соответствии с одним или более вариантами реализации настоящего изобретения расстояние между определенным объектом и разделительной гиперплоскостью 220 в гиперпространстве 207 может указывать на степень уверенности, связанную с атрибутом объекта, который был идентифицирован в ходе процесса извлечения информации, описанного в блоке 140. В некоторых вариантах реализации изобретения степень уверенности может быть представлена значением сигмоидной функции от расстояния между объектом и разделительной гиперплоскостью.
[00060] Со ссылкой на Фиг. 1 в блоке 170 вычислительная система может верифицировать значения атрибутов через графический интерфейс пользователя, в котором отображаются информационные объекты в визуальной связи с соответствующими свойствами и текстовыми аннотациями. Графический интерфейс пользователя может быть реализован для получения вводимых пользователем данных, подтверждающих или изменяющих определенные значения атрибутов, связанных с извлеченными информационными объектами.
[00061] В иллюстративном примере на Фиг. 3 в графическом интерфейсе пользователя с помощью экранной панели 305 отображается фрагмент текста на естественном языке и выделяются аннотации и отображаются соответствующие информационные объекты и их свойства. Например, информационный объект, связанный с классом «Арендодатель», представлен экранной панелью 310; информационный объект, связанный с классом «Арендатор», представлен экранной панелью 320; а информационный объект, связанный с классом «Земельный участок» представлен экранной панелью 330.
[00062] Как далее показано на Фиг. 3, информационные объекты каждого из классов Lessor («Арендодатель») и Lessee («Арендатор») связаны с соответствующими свойствами имени и адреса, которые отображаются с помощью экранных панелей 310 и 320. Визуальные связи свойств информационного объекта, отображаемые описательными панелями 310-330 и соответствующими аннотациями в тексте, который отображен на панели 305, устанавливаются за счет выделения описательной панели информационного объекта, на который указывает курсор, и соответствующей аннотации к информационному объекту. Таким образом, на Фиг. 3 выделены значения «Douglas Milbauer» в атрибуте имени 330 информационного объекта Lessor («Арендодатель») и соответствующая аннотация 340. Числовое обозначение, например Acres 1 («Владение» 1), после названия семантического класса применяется для различения нескольких информационных объектов, связанных с одним семантическим классом.
[00063] В некоторых вариантах реализации в вычислительной системе для верификации значений атрибутов, степень уверенности которых находится ниже заданного порога, может использоваться графический интерфейс пользователя. В иллюстративном примере пороговое значение уверенности, при которой запускается процедура верификации, может быть выбрано пользователем с помощью ползунка в графическом интерфейсе пользователя (для простоты не показан на Фиг. 3). Кроме того, пороговое значение уверенности может автоматически устанавливаться вычислительной системой, например на заданном уровне, и может впоследствии увеличиваться один или более раз после получения указания пользователя о завершении процесса верификации на текущей степени уверенности. Поскольку основное количество ошибок предположительно обнаруживается при низких степенях уверенности, то по мере повышения порогового значения уверенности количество ошибок будет уменьшаться и процесс верификации может быть завершен, когда будет установлено достаточно низкое отношение количества ошибок к количеству правильно определенных атрибутов.
[00064] В иллюстративном примере на Фиг. 3 атрибут Address («Адрес») информационного объекта Lessor («Арендатор»), отображаемый на экранной панели 320, визуально связан с символом «?» (350), указывающим на то, что степень уверенности данного атрибута находится ниже порогового значения для верификации. Графический интерфейс пользователя может содержать один или более элементов, применяемых для принятия вводимых пользователем данных с подтверждением или опровержением связей атрибутов с соответствующими информационными объектами и/или значениям атрибутов, связанными с информационными объектами. В иллюстративном примере такой элемент графического интерфейса пользователя может быть представлен полем, в котором пользователь может поставить галочку, что будет указывать на подтверждение пользователем связи атрибута с информационным объектом и/или значением атрибута, связанного с информационным объектом. В другом иллюстративном примере элемент графического интерфейса пользователя может быть представлен селективной кнопкой, позволяющей выбирать варианты «подтвердить» или «опровергнуть». В другом иллюстративном примере элемент графического интерфейса пользователя может быть представлен раскрывающимся списком, отображающим различные возможные значения определенного атрибута соответствующего информационного объекта.
[00065] В некоторых вариантах реализации степень уверенности атрибута информационного объекта, верифицированного пользователем с помощью графического интерфейса пользователя, может быть повышена на первое заданное или динамически настраиваемое значение или множество настраиваемых значений (например, максимальное значение степени уверенности). Степень уверенности атрибута информационного объекта, который был только просмотрен пользователем (т.е. был отображен в пользовательском графическом интерфейсе верификации, но ввод от пользователя для подтверждения, опровержения или изменения связи атрибута с соответствующим информационным объектом или значением атрибута получен не был), может быть увеличена на третье заданное или динамически настраиваемое значение, меньшее, чем первое заданное или динамически настраиваемое значение. Степень уверенности атрибута информационного объекта, который был только просмотрен пользователем (т.е. был отображен в пользовательском графическом интерфейсе верификации, но ввод от пользователя для подтверждения, опровержения или изменения связи атрибута с соответствующим информационным объектом или значением атрибута получен не был), может принять четвертое заданное или динамически настраиваемое значение, меньшее, чем второе заданное или динамически настраиваемое значение.
[00066] Со ссылкой на Фиг. 1 в блоке 180 вычислительная система может добавить к обучающей выборке, используемой для определения значений параметров функции классификатора, выдающей значения степени уверенности, по меньшей мере часть текста на естественном языке, соответствующую семантико-синтаксическим структурам, из которых с помощью операций, описанных со ссылкой на блок 140, был извлечен один или более информационных объектов. Верифицированные пользователем значения атрибутов и соответствующие степени уверенности также могут быть добавлены к обучающей выборке данных в связи с соответствующими частями текста на естественном языке.
[00067] Таким образом, обновленные значения степени уверенности могут учитываться алгоритмами машинного обучения, определяющими параметры функций классификатора, которые создают значения степени уверенности, как было описано более подробно выше. Поэтому с каждой новой итерацией точность классификатора возрастает и, соответственно, повышается качество определения степени уверенности.
[00068] Вычислительная система может создавать также верифицированный RDF-граф 185, представляющий текст на естественном языке 120. В некоторых вариантах реализации итоговый RDF-граф 185 может также использоваться для выполнения различных задач обработки естественного языка, таких как машинный перевод, семантический поиск, классификация документов и т.д. После завершения операций, указанных в блоке 180, выполнение способа может быть завершено.
[00069] На Фиг. 4 приведена блок-схема одного иллюстративного примера способа 400 верификации атрибутов информационных объектов, использующихся для обучения моделей уверенности в соответствии с одним или более вариантами реализации настоящего изобретения. Способ 400 и/или каждая из его отдельных функций, стандартных программ, подпрограмм или операций могут выполняться одним или более процессорами вычислительной системы (например, вычислительная система 1000 на Фиг. 16), реализующей этот способ. В некоторых вариантах реализации способ 400 может выполняться в одном потоке обработки. При альтернативном подходе способ 400 может быть реализован с помощью двух или более потоков обработки, при этом каждый поток выполняет одну или более отдельных функций, стандартных программ, подпрограмм или операций данного способа. В иллюстративном примере потоки обработки, реализующие способ 400, могут быть синхронизированы (например, с помощью семафоров, критических секций и/или других механизмов синхронизации потоков). В качестве альтернативы потоки обработки, реализующие способ 400, могут выполняться асинхронно по отношению друг к другу. Поэтому, хотя Фиг. 4 и соответствующее описание содержат операции способа 400 в определенном порядке, различные реализации способа могут выполняться, по крайней мере некоторые из перечисленных операций, параллельно и (или) в произвольно выбранном порядке.
[00070] В блоке 410 реализующая способ 100 вычислительная система может получать множество значений атрибутов, связанных с информационными объектами, представляющими сущности, на которые ссылается текст на естественном языке 120 (Фиг. 1). В некоторых вариантах реализации компьютерная система может извлекать множество информационных объектов, представляющих сущности, на которые ссылается текст на естественном языке, и определять значения атрибутов извлеченных информационных объектов за счет интерпретации множества семантических структур, представляющих текст на естественном языке, с помощью набора продукционных правил, как описано более подробно выше. В иллюстративном примере множество значений атрибутов может включать первое значение атрибута и второе значение атрибута, связанное с определенным информационным объектом.
[00071] В блоке 420 вычислительная система может получить значения степени уверенности, связанные с соответствующими значениями атрибутов. В некоторых вариантах реализации степень уверенности, связанная с определенным атрибутом, может быть определена путем оценки функции уверенности, связанной с набором продукционных правил. Функция уверенности может быть представлена линейным классификатором, выдающим расстояние от информационного объекта до разделительной гиперплоскости в гиперпространстве признаков, связанных с набором продукционных правил, как описано более подробно выше со ссылкой на Фиг. 2. В иллюстративном примере вычислительная система может получать первую степень уверенности, связанную с первым значением атрибута, и вторую степень уверенности, связанную со вторым значением атрибута.
[00072] В блоке 430 вычислительная система может вызвать графический интерфейс пользователя для верификации одного или более значений степени уверенности, находящихся ниже заданного или динамически настраиваемого порогового значения уверенности. В иллюстративном примере при определении того, что степень уверенности находится ниже порогового значения уверенности, вычислительная система может отобразить первое значение атрибута с помощью пользовательского графического интерфейса верификации. При определении того, что вторая степень уверенности находится ниже порогового значения уверенности, вычислительная система может также отобразить второе значение атрибута с использованием пользовательского графического интерфейса верификации.
[00073] В некоторых вариантах реализации пользовательский графический интерфейс верификации может отображать информационные объекты в визуальной связи с их соответствующими свойствами, значениями атрибутов и текстовыми аннотациями и может быть задействован для ввода пользователем подтверждения или изменения определенных значений атрибутов, связанных с извлеченными информационными объектами. В иллюстративном примере графический интерфейс пользователя может содержать один или более элементов, применяемых для принятия вводимых пользователем данных с подтверждением или отбраковкой связей атрибутов с соответствующими информационными объектами и/или значениями атрибутов, связанными с информационными объектами, как описано более подробно ниже со ссылкой на Фиг. 3.
[00074] В блоке 440 вычислительная система может выполнить обновление значений степени уверенности, чтобы отобразить результаты верификации в графическом интерфейсе пользователя. Степень уверенности атрибута информационного объекта, верифицированного пользователем с помощью графического интерфейса пользователя, может быть повышена на первое заданное или динамически настраиваемое значение или множество настраиваемых значений (например, максимальное значение степени уверенности). Степень уверенности атрибута информационного объекта, который был только просмотрен пользователем (т.е. был отображен в пользовательском графическом интерфейсе верификации, но ввод от пользователя для подтверждения, опровержения или изменения связи атрибута с соответствующим информационным объектом или значением атрибута получен не был), может быть увеличена на третье заданное или динамически настраиваемое значение, меньшее, чем первое настраиваемое значение. Степень уверенности атрибута информационного объекта, который был только просмотрен пользователем (т.е. был отображен в пользовательском графическом интерфейсе верификации, но ввод от пользователя для подтверждения, опровержения или изменения связи атрибута с соответствующим информационным объектом или значением атрибута получен не был), может принять четвертое заданное или динамически настраиваемое значение, меньшее, чем второе настраиваемое значение.
[00075] В некоторых вариантах реализации вычислительная система может определять, что степень уверенности атрибута информационного объекта была просмотрена пользователем, если значение атрибута было отображено через пользовательский графический интерфейс верификации, но ввод пользователя до определенного инициирующего события получен не был, что указывает на то, что пользователь прекратил сессию верификации (например, закрытием окна верификации в графическом интерфейсе пользователя, в котором отображалась соответствующая часть текста на естественном языке), перешел к другой части текста на естественном языке или на то, что истек заданный или динамически настраиваемый период отображения соответствующей части текста на естественном языке.
[00076] В иллюстративном примере при получении через пользовательский графический интерфейс верификации первого отклика пользователя, верифицирующего первое значение атрибута, вычислительная система может увеличить первую степень уверенности на первое заданное значение или задать для первой степени уверенности второе заданное значение. Если второй отклик, верифицирующий второе значение атрибута, не получен через пользовательский графический интерфейс для верификации второго входного значения до инициирующего события, то вычислительная система может также увеличить вторую степень уверенности на третье заданное значение, меньшее, чем первое заданное значение, или задать для второй степени уверенности четвертое заданное значение, меньшее, чем второе заданное значение.
[00077] В блоке 450 вычислительная система может добавить к обучающей выборке по меньшей мере часть текста на естественном языке, породившую семантико-синтаксические структуры, из которых был извлечен один или более информационных объектов. Верифицированные пользователем значения атрибутов и соответствующие степени уверенности также могут быть добавлены к обучающей выборке данных в связи с соответствующими частями текста на естественном языке, что было более подробно описано выше.
[00078] В блоке 460 вычислительная система с помощью обучающей выборки данных может определить один или более параметров функций уверенности, применяющихся для определения значений степени уверенности атрибутов, связанных с информационными объектами, которые были извлечены из текстов на естественном языке, что было описано более подробно выше. После завершения операций, указанных в блоке 180, выполнение способа может быть завершено.
[00079] На Фиг. 5 приведена блок-схема одного иллюстративного примера реализации способа 200 для выполнения семантико-синтаксического анализа предложения на естественном языке 212 в соответствии с одним или несколькими аспектами настоящего изобретения. Способ 200 может быть применен к одной или более синтаксическим единицам (например, предложениям), включенным в определенный текстовый корпус, для формирования множества семантико-синтаксических деревьев, соответствующих синтаксическим единицам. В различных иллюстративных примерах подлежащие обработке способом 200 предложения на естественном языке могут извлекаться из одного или нескольких электронных документов, которые могут создаваться путем сканирования (или другим способом получения изображений бумажных документов) и оптического распознавания символов (OCR) для получения текстов, соответствующих этим документам. Предложения на естественном языке также могут извлекаться из других различных источников, включая сообщения, отправляемые по электронной почте, тексты из социальных сетей, файлы с цифровым содержимым, обработанные с использованием способов распознавания речи и т.д.
[00080] В блоке 214 вычислительное устройство, реализующее данный способ, может проводить лексико-морфологический анализ предложения 212 для установления морфологических значений слов, входящих в состав предложения. В настоящем документе "морфологическое значение" слова означает одну или несколько лемм (т.е. канонических или словарных форм), соответствующих слову, и соответствующий набор значений грамматических признаков, которые определяют грамматическое значение слова. В число таких грамматических признаков могут входить лексическая категория (часть речи) слова и один или более морфологических и грамматических признаков (например, падеж, род, число, спряжение и т.д.). Ввиду омонимии и (или) совпадающих грамматических форм, соответствующих разным лексико-морфологическим значениям определенного слова, для данного слова может быть установлено два или более морфологических значений. Более подробное описание иллюстративного примера проведения лексико-морфологического анализа предложения приведено ниже в настоящем документе со ссылкой на Фиг. 6.
[00081] В блоке 215 вычислительное устройство может проводить грубый синтаксический анализ предложения 212. Грубый синтаксический анализ может включать применение одной или нескольких синтаксических моделей, которые могут быть соотнесены с элементами предложения 212, с последующим установлением поверхностных (т.е. синтаксических) связей в рамках предложения 212 для получения графа обобщенных составляющих. В настоящем документе "составляющая" означает группу соседних слов исходного предложения, функционирующую как одна грамматическая сущность. Составляющая включает в себя ядро в виде одного или более слов и может также включать одну или несколько дочерних составляющих на более низких уровнях. Дочерняя составляющая является зависимой составляющей, которая может быть соотнесена с одной или несколькими родительскими составляющими.
[00082] В блоке 216 вычислительное устройство может проводить точный синтаксический анализ предложения 212 для формирования одного или более синтаксических деревьев предложения. Среди различных синтаксических деревьев на основе определенной функции оценки с учетом совместимости лексических значений слов исходного предложения, поверхностных отношений, глубинных отношений и т.д. может быть отобрано одно или несколько лучших синтаксических деревьев, соответствующих предложению 212.
[00083] В блоке 217 вычислительное устройство может обрабатывать синтаксические деревья для формирования семантической структуры 218, соответствующей предложению 212. Семантическая структура 218 может включать множество узлов, соответствующих семантическим классам и также может включать множество дуг, соответствующих семантическим отношениям (более подробное описание см. ниже в настоящем документе).
[00084] Фиг. 6 схематически иллюстрирует пример лексико-морфологической структуры предложения в соответствии с одним или более аспектами настоящего изобретения. Пример лексико-морфологической структуры 300 может включать множество пар "лексическое значение - грамматическое значение" для примера предложения. В качестве иллюстративного примера, "ll" может быть соотнесено с лексическим значением "shall" 312 и "will" 314. Грамматическим значением, соотнесенным с лексическим значением 312, является <Verb, GTVerbModal, ZeroType, Present, Nonnegative, Composite II>. Грамматическим значением, соотнесенным с лексическим значением 314, является <Verb, GTVerbModal, ZeroType, Present, Nonnegative, Irregular, Composite II>.
[00085] Фиг. 7 схематически иллюстрирует используемые языковые описания 210, в том числе морфологические описания 201, лексические описания 203, синтаксические описания 202 и семантические описания 204, а также отношения между ними. Среди них морфологические описания 201, лексические описания 203 и синтаксические описания 202 зависят от языка. Набор языковых описаний 210 представляет собой модель определенного естественного языка.
[00086] В качестве иллюстративного примера определенное лексическое значение в лексических описаниях 203 может быть соотнесено с одной или несколькими поверхностными моделями синтаксических описаний 202, соответствующих данному лексическому значению. Определенная поверхностная модель синтаксических описаний 202 может быть соотнесена с глубинной моделью семантических описаний 204.
[00087] Фиг. 8 схематически иллюстрирует несколько примеров морфологических описаний. В число компонентов морфологических описаний 201 могут входить: описания словоизменения 310, грамматическая система 320, описания словообразования 330 и другие. Грамматическая система 320 включает набор грамматических категорий, таких как часть речи, падеж, род, число, лицо, возвратность, время, вид и их значения (так называемые "граммемы"), в том числе, например, прилагательное, существительное или глагол; именительный, винительный или родительный падеж; женский, мужской или средний род и т.д. Соответствующие граммемы могут использоваться для составления описания словоизменения 310 и описания словообразования 330.
[00088] Описание словоизменения 310 определяет формы данного слова в зависимости от его грамматических категорий (например, падеж, род, число, время и т.д.) и в широком смысле включает в себя или описывает различные возможные формы слова. Описание словообразования 330 определяет, какие новые слова могут быть образованы от данного слова (например, сложные слова).
[00089] В соответствии с одним из аспектов настоящего изобретения при установлении синтаксических отношений между элементами исходного предложения могут использоваться модели составляющих. Составляющая представляет собой группу соседних слов в предложении, ведущих себя как единое целое. Ядром составляющей является слово, она также может содержать дочерние составляющие более низких уровней. Дочерняя составляющая является зависимой составляющей и может быть прикреплена к другим составляющим (родительским) для построения синтаксических описаний 202 исходного предложения.
[00090] На Фиг. 9 приведены примеры синтаксических описаний. В число компонентов синтаксических описаний 202 могут входить, среди прочего, поверхностные модели 410, описания поверхностных позиций 420, описание референциального и структурного контроля 456, описание управления и согласования 440, описание недревесного синтаксиса 450 и правила анализа 460. Синтаксические описания 202 могут использоваться для построения возможных синтаксических структур исходного предложения на заданном естественном языке с учетом свободного линейного порядка слов, недревесных синтаксических явлений (например, согласование, эллипсис и т.д.), референциальных отношений и других факторов.
[00091] Поверхностные модели 410 могут быть представлены в виде совокупностей одной или нескольких синтаксических форм («синтформ» 412) для описания возможных синтаксических структур предложений, входящих в состав синтаксического описания 202. В целом, лексическое значение слова на естественном языке может быть связано с поверхностными (синтаксическими) моделями 410. Поверхностная модель может представлять собой составляющие, которые возможны, если лексическое значение выступает в роли "ядра". Поверхностная модель может включать набор поверхностных позиций дочерних элементов, описание линейного порядка и (или) диатезу. В настоящем документе "диатеза" означает определенное отношение между поверхностными и глубинными позициями и их семантическими ролями, выражаемыми посредством глубинных позиций. Например, диатеза может выражаться залогом глагола: если субъект является агентом действия, глагол в активном залоге, а когда субъект является направлением действия, это выражается пассивным залогом глагола.
[00092] В модели составляющих может использоваться множество поверхностных позиций 415 дочерних составляющих и описаний их линейного порядка 416 для описания грамматических значений 414 возможных заполнителей этих поверхностных позиций. Диатезы 417 представляют собой соответствия между поверхностными позициями 415 и глубинными позициями 514 (как показано на Фиг. 8). Коммуникативные описания 480 описывают коммуникативный порядок в предложении.
[00093] Описание линейного порядка (416) может быть представлено в виде выражений линейного порядка, отражающих последовательность, в которой различные поверхностные позиции (415) могут встречаться в предложении. В число выражений линейного порядка могут входить наименования переменных, имена поверхностных позиций, круглые скобки, граммемы, оператор «or» (или) и т.д. В качестве иллюстративного примера описание линейного порядка простого предложения "Boys play football" можно представить в виде "Subject Core Object_Direct" (Подлежащее - Ядро - Прямое дополнение), где Subject (Подлежащее), Core (Ядро) и Object_Direct (Прямое дополнение) представляют собой имена поверхностных позиций 415, соответствующих порядку слов.
[00094] Коммуникативные описания 480 могут описывать порядок слов в синтформе 412 с точки зрения коммуникативных актов, представленных в виде коммуникативных выражений порядка, которые похожи на выражения линейного порядка. Описания управления и согласования 440 могут включать правила и ограничения на грамматические значения присоединяемых составляющих, которые используются во время синтаксического анализа.
[00095] Описания недревесного синтаксиса 450 могут создаваться для отражения различных языковых явлений, таких как эллипсис и согласование, они используются при трансформациях синтаксических структур, которые создаются на различных этапах анализа в различных вариантах реализации изобретения. Описания недревесного синтаксиса 450 могут, среди прочего, включать описание эллипсиса 452, описания согласования 454, а также описания референциального и структурного контроля 430.
[00096] Правила анализа 460 могут описывать свойства конкретного языка и использоваться в рамках семантического анализа. Правила анализа 460 могут включать правила вычисления семантем 462 и правила нормализации 464. Правила нормализации 464 могут использоваться для описания трансформаций семантических структур, которые могут отличаться в разных языках.
[00097] На Фиг. 10 приведен пример семантических описаний. Компоненты семантических описаний 204 не зависят от языка и могут, среди прочего, включать семантическую иерархию 510, описания глубинных позиций 520, систему семантем 530 и прагматические описания 540.
[00098] Ядро семантических описаний может быть представлено семантической иерархией 510, в которую могут входить семантические понятия (семантические сущности), также называемые семантическими классами. Последние могут быть упорядочены в иерархическую структуру, отражающую отношения "родитель-потомок". В целом, дочерний семантический класс может унаследовать одно или более свойств своего прямого родителя и других семантических классов-предков. В качестве иллюстративного примера семантический класс SUBSTANCE (Вещество) является дочерним семантическим классом класса ENTITY (Сущность) и родительским семантическим классом для классов GAS, (Газ), LIQUID (Жидкость), METAL (Металл), WOOD_MATERIAL (Древесина) и т.д.
[00099] Каждый семантический класс в семантической иерархии 510 может сопровождаться глубинной моделью 512. Глубинная модель 512 семантического класса может включать множество глубинных позиций 514, которые могут отражать семантические роли дочерних составляющих в различных предложениях с объектами данного семантического класса в качестве ядра родительской составляющей. Глубинная модель 512 также может включать возможные семантические классы, выступающие в роли заполнителей глубинных позиций. Глубинные позиции (514) могут выражать семантические отношения, в том числе, например, "agent" (агенс), "addressee" (адресат), "instrument" (инструмент), "quantity" (количество) и т.д. Дочерний семантический класс может наследовать и уточнять глубинную модель своего непосредственного родительского семантического класса.
[000100] Описания глубинных позиций 520 отражают семантические роли дочерних составляющих в глубинных моделях 512 и могут использоваться для описания общих свойств глубинных позиций 514. Описания глубинных позиций 520 также могут содержать грамматические и семантические ограничения в отношении заполнителей глубинных позиций 514. Свойства и ограничения, связанные с глубинными позициями 514 и их возможными заполнителями в различных языках, могут быть в значительной степени подобными и зачастую идентичными. Таким образом, глубинные позиции 514 не зависят от языка.
[000101] Система семантем 530 может представлять собой множество семантических категорий и семантем, которые представляют значения семантических категорий. В качестве иллюстративного примера семантическая категория "DegreeOfComparison" (Степень сравнения) может использоваться для описания степени сравнения прилагательных и включать следующие семантемы: "Positive" (Положительная), "ComparativeHigherDegree" (Сравнительная степень сравнения), "SuperlativeHighestDegree" (Превосходная степень сравнения) и другие. В качестве еще одного иллюстративного примера семантическая категория "RelationToReferencePoint" (Отношение к точке) может использоваться для описания порядка (пространственного или временного в широком смысле анализируемых слов), как, например, до или после точки или события, и включать семантемы "Previous" (Предыдущий) и "Subsequent" (Последующий). В качестве еще одного иллюстративного примера семантическая категория "EvaluationObjective" (Оценка) может использоваться для описания объективной оценки, как, например, "Bad" (Плохой), "Good" (Хороший) и т.д.
[000102] Система семантем 530 может включать независимые от языка семантические атрибуты, которые могут выражать не только семантические характеристики, но и стилистические, прагматические и коммуникативные характеристики. Некоторые семантемы могут использоваться для выражения атомарного значения, которое находит регулярное грамматическое и (или) лексическое выражение в естественном языке. По своему целевому назначению и использованию системы семантем могут разделяться на категории, например грамматические семантемы 532, лексические семантемы 534 и классифицирующие грамматические (дифференцирующие) семантемы 536.
[000103] Грамматические семантемы 532 могут использоваться для описания грамматических свойств составляющих при преобразовании синтаксического дерева в семантическую структуру. Лексические семантемы 534 могут описывать конкретные свойства объектов (например, "being flat" (быть плоским) или "being liquid" (являться жидкостью)) и использоваться в описаниях глубинных позиций 520 как ограничение заполнителей глубинных позиций (например, для глаголов "face (with)" (облицовывать) и "flood" (заливать) соответственно). Классифицирующие грамматические (дифференцирующие) семантемы 536 могут выражать дифференциальные свойства объектов внутри одного семантического класса. В качестве иллюстративного примера в семантическом классе HAIRDRESSER (ПАРИКМАХЕР) семантема «RelatedToMen» (Относится к мужчинам) присваивается лексическому значению "barber" в отличие от других лексических значений, которые также относятся к этому классу, например «hairdresser», «hairstylist» и т.д. Используя данные независимые от языка семантические свойства, которые могут быть выражены в виде элементов семантического описания, в том числе семантических классов, глубинных позиций и семантем, можно извлекать семантическую информацию в соответствии с одним или более аспектами настоящего изобретения.
[000104] Прагматические описания 540 позволяют назначать определенную тему, стиль или жанр текстам и объектам семантической иерархии 510 (например, «Экономическая политика», «Внешняя политика», «Юриспруденция», «Законодательство», «Торговля», «Финансы» и т.д.). Прагматические свойства также могут выражаться семантемами. В качестве иллюстративного примера прагматический контекст может приниматься во внимание при семантическом анализе.
[000105] На Фиг. 11 приведен пример лексических описаний. Лексические описания (203) представляют собой множество лексических значений 612 конкретного естественного языка. Для каждого лексического значения 612 имеется связь 602 с его независимым от языка семантическим родителем для того, чтобы указать положение какого-либо заданного лексического значения в семантической иерархии 510.
[000106] Лексическое значение 612 в лексико-семантической иерархии 510 может быть соотнесено с поверхностной моделью 410, которая, в свою очередь, через одну или несколько диатез 417 может быть соотнесена с соответствующей глубинной моделью 512. Лексическое значение 612 может наследовать семантический класс своего родителя и уточнять свою глубинную модель 512.
[000107] Поверхностная модель 410 лексического значения может включать одну или несколько синтаксических форм 412. Синтформа 412 поверхностной модели 410 может включать одну или несколько поверхностных позиций 415, в том числе соответствующие описания их линейного порядка 416, одно или несколько грамматических значений 414, выраженных в виде набора грамматических категорий (граммем), одно или несколько семантических ограничений, соотнесенных с заполнителями поверхностных позиций, и одну или несколько диатез 417. Семантические ограничения, соотнесенные с определенным заполнителем поверхностной позиции, могут быть представлены в виде одного или более семантических классов, объекты которых могут заполнить эту поверхностную позицию.
[000108] Фиг. 12 схематически иллюстрирует примеры структур данных, которые могут быть использованы в рамках одного или более методов настоящего изобретения. Снова ссылаясь на Фиг. 5, в блоке 214 вычислительное устройство, реализующее данный способ, может проводить лексико-морфологический анализ предложения 212 для построения лексико-морфологической структуры 722 согласно Фиг. 12. Лексико-морфологическая структура 722 может включать множество соответствий лексического и грамматического значений для каждой лексической единицы (например, слова) исходного предложения. Фиг. 6 схематически иллюстрирует пример лексико-морфологической структуры.
[000109] Снова возвращаясь к Фиг. 5, в блоке 215 вычислительное устройство может проводить грубый синтаксический анализ исходного предложения 212 для построения графа обобщенных составляющих 732 согласно Фиг. 12. Грубый синтаксический анализ предполагает применение одной или нескольких возможных синтаксических моделей возможных лексических значений к каждому элементу множества элементов лексико-морфологической структуры 722, с тем чтобы установить множество потенциальных синтаксических отношений в составе исходного предложения 212, представленных графом обобщенных составляющих 732.
[000110] Граф обобщенных составляющих 732 может быть представлен ациклическим графом, включающим множество узлов, соответствующих обобщенным составляющим исходного предложения 212 и включающим множество дуг, соответствующих поверхностным (синтаксическим) позициям, которые могут выражать различные типы отношений между обобщенными лексическими значениями. В рамках данного способа может применяться множество потенциально применимых синтаксических моделей для каждого элемента множества элементов лексико-морфологических структур исходного предложения 212 для формирования набора составляющих исходного предложения 212. Затем в рамках способа может рассматриваться множество возможных составляющих исходного предложения 212 для построения графа обобщенных составляющих 732 на основе набора составляющих. Граф обобщенных составляющих 732 на уровне поверхностной модели может отражать множество потенциальных связей между словами исходного предложения 212. Поскольку количество возможных синтаксических структур может быть относительно большим, граф обобщенных составляющих 732 может, в общем случае, включать избыточную информацию, в том числе относительно большое число лексических значений по определенным узлам и (или) поверхностных позиций по определенным дугам графа.
[000111] Граф обобщенных составляющих 732 может изначально строиться в виде дерева, начиная с концевых узлов (листьев) и двигаясь далее к корню, путем добавления дочерних составляющих, заполняющих поверхностные позиции 415 множества родительских составляющих, с тем чтобы были охвачены все лексические единицы исходного предложения 212.
[000112] В некоторых вариантах осуществления корень графа обобщенных составляющих 732 представляет собой предикат. В ходе описанного выше процесса дерево может стать графом, так как определенные составляющие более низкого уровня могут быть включены в одну или несколько составляющих верхнего уровня. Множество составляющих, которые представляют определенные элементы лексико-морфологической структуры, затем может быть обобщено для получения обобщенных составляющих. Составляющие могут быть обобщены на основе их лексических значений или грамматических значений 414, например, на основе частей речи и отношений между ними. Фиг. 10 схематически иллюстрирует пример графа обобщенных составляющих.
[000113] В блоке 216 вычислительное устройство может проводить точный синтаксический анализ предложения 212 для формирования одного или более синтаксических деревьев 742 согласно Фиг. 9 на основе графа обобщенных составляющих 732. Для каждого синтаксического дерева вычислительное устройство может определить интегральную оценку на основе априорных и вычисляемых оценок. Дерево с наилучшей оценкой может быть выбрано для построения наилучшей синтаксической структуры 746 исходного предложения 212.
[000114] В ходе построения синтаксической структуры 746 на основе выбранного синтаксического дерева вычислительное устройство может установить одну или несколько недревесных связей (например, путем создания дополнительной связи среди, как минимум, двух узлов графа). Если этот процесс заканчивается неудачей, вычислительное устройство может выбрать синтаксическое дерево с условно оптимальной оценкой, наиболее близкой к оптимальной, и производится попытка установить одну или несколько недревесных связей в дереве. Наконец, в результате точного синтаксического анализа создается синтаксическая структура 746, которая представляет собой лучшую синтаксическую структуру, соответствующую исходному предложению 212. Фактически в результате отбора лучшей синтаксической структуры 746 определяются лучшие лексические значения 240 для элементов исходного предложения 212.
[000115] В блоке 217 вычислительное устройство может обрабатывать синтаксические деревья для формирования семантической структуры 218, соответствующей предложению 212. Семантическая структура 218 может отражать передаваемую исходным предложением семантику в независимых от языка терминах. Семантическая структура 218 может быть представлена в виде ациклического графа (например, дерево, возможно, дополненное одной или более недревесной связью (дугой графа). Слова исходного предложения представлены узлами с соответствующими независимыми от языка семантическими классами семантической иерархии 510. Дуги графа представляют глубинные (семантические) отношения между элементами предложения. Переход к семантической структуре 218 может осуществляться с помощью правил анализа 460 и предполагает соотнесение одного или более атрибутов (отражающих лексические, синтаксические и (или) семантические свойства слов исходного предложения 212) с каждым семантическим классом.
[000116] На Фиг. 14 приводится пример синтаксической структуры предложения, сгенерированной из графа обобщенных составляющих, показанного на Фиг. 13 Узел 901 соответствует лексическому элементу "life" (жизнь) 906. Применяя способ описанного в настоящем документе синтактико-семантического анализа, вычислительное устройство может установить, что лексический элемент "life" (жизнь) 906 представляет одну из форм лексического значения, соотнесенного с семантическим классом "LIVE" (ЖИТЬ) 904 и заполняет поверхностную позицию $Adjunct_Locative 905) в родительской составляющей, представленной управляющим узлом Verb:succeed:succeed:TO_SUCCEED (907).
[000117] На Фиг. 15 приводится семантическая структура, соответствующая синтаксической структуре на Фиг. 14. В отношении вышеупомянутого лексического элемента "life" (жизнь) (906) на Фиг. 14 семантическая структура включает лексический класс 1010 и семантический класс 1030, соответствующие представленным на Фиг. 14, однако вместо поверхностной позиции (905) семантическая структура включает глубинную позицию "Sphere" (сфера_деятельности) 1020.
[000118] Как отмечено выше в настоящем документе, в качестве "онтологии" может выступать модель, которая представляет собой объекты, относящиеся к определенной области знаний (предметной области), и отношения между данными объектами. Таким образом, онтология отличается от семантической иерархии, несмотря на то, что она может быть соотнесена с элементами семантической иерархии через определенные отношения (также называемые "якоря"). Онтология может включать определения некого множества классов, где каждый класс соответствует концепту предметной области. Каждое определение класса может включать определения одного или более отнесенных к данному классу объектов. Согласно общепринятой терминологии класс онтологии может также означать концепт, а принадлежащий классу объект может означать экземпляр данного концепта.
[000119] В соответствии с одним или несколькими аспектами настоящего изобретения вычислительное устройство, в котором реализованы описанные в настоящем описании способы, может индексировать один или несколько параметров, полученных в результате семантико-синтаксического анализа. Таким образом, способы настоящего изобретения позволяют рассматривать не только множество слов в составе исходного текстового корпуса, но и множество лексических значений этих слов, сохраняя и индексируя всю синтаксическую и семантическую информацию, полученную в ходе синтаксического и семантического анализа каждого предложения исходного текстового корпуса. Такая информация может дополнительно включать данные, полученные в ходе промежуточных этапов анализа, а также результаты лексического выбора, в том числе результаты, полученные в ходе разрешения неоднозначностей, вызванных омонимией и (или) совпадающими грамматическими формами, соответствующими различным лексико-морфологическим значениям некоторых слов исходного языка.
[000120] Для каждой семантической структуры можно создать один или несколько индексов. Индекс можно представить в виде структуры данных в памяти, например в виде таблицы, состоящей из нескольких записей. Каждая запись может представлять собой установление соответствия между определенным элементом семантической структуры (например, одно слово или несколько слов, синтаксическое отношение, морфологическое, синтаксическое или семантическое свойство или синтаксическая или семантическая структура) и одним или несколькими идентификаторами (или адресами) случаев употребления данного элемента семантической структуры в исходном тексте.
[000121] В некоторых вариантах осуществления индекс может включать одно или несколько значений морфологических, синтаксических, лексических и (или) семантических параметров. Эти значения могут создаваться в процессе двухэтапного семантического анализа (более подробное описание см. в настоящем документе). Индекс можно использовать для выполнения различных задач обработки естественного языка, в том числе для выполнения семантического поиска.
[000122] Вычислительное устройство, реализующее данный способ, может извлекать широкий спектр лексических, грамматических, синтаксических, прагматических и (или) семантических характеристик в ходе проведения синтактико-семантического анализа и создания семантических структур. В иллюстративном примере система может извлекать и сохранять определенную лексическую информацию, данные о принадлежности определенных лексических единиц семантическим классам, информацию о грамматических формах и линейном порядке, информацию об использовании определенных форм, аспектов, тональности (например, положительной или отрицательной), глубинных позиций, недревесных связей, семантем и т.д.
[000123] Вычислительное устройство, в котором реализованы описанные здесь способы, может производить анализ, используя один или несколько описанных в этом документе способов анализа текста, и индексировать любой один или несколько параметров описаний языка, включая лексические значения, семантические классы, граммемы, семантемы и т.д. Индексацию семантического класса можно использовать в различных задачах обработки естественного языка, включая семантический поиск, классификацию, кластеризацию, фильтрацию текста и т.д.. Индексация лексических значений (вместо индексации слов) позволяет искать не только слова и формы слов, но и лексические значения, т.е. слова, имеющие определенные лексические значения. Вычислительное устройство, реализующее способы настоящего изобретения, также может хранить и индексировать синтаксические и семантические структуры, созданные одним или несколькими описанными в настоящем документе способами анализа текста, для использования данных структур и (или) индексов при проведении семантического поиска, классификации, кластеризации и фильтрации документов.
[000124] На Фиг. 16 схематически показан иллюстративный пример вычислительного устройства (1000), которое может исполнять набор команд, которые вызывают выполнение вычислительным устройством любого отдельно взятого или нескольких способов настоящего изобретения. Вычислительное устройство может подключаться к другому вычислительному устройству по локальной сети, корпоративной сети, сети экстранет или сети Интернет. Вычислительное устройство может работать в качестве сервера или клиентского вычислительного устройства в сетевой среде "клиент/сервер" либо в качестве однорангового вычислительного устройства в одноранговой (или распределенной) сетевой среде. Вычислительное устройство может быть представлено персональным компьютером (ПК), планшетным ПК, телевизионной приставкой (STB), карманным ПК (PDA), сотовым телефоном или любым вычислительным устройством, способным выполнять набор команд (последовательно или иным образом), определяющих операции, которые должны быть выполнены этим вычислительным устройством. Кроме того, в то время как показано только одно вычислительное устройство, следует принять, что термин «вычислительное устройство» также может включать любую совокупность вычислительных устройств, которые отдельно или совместно выполняют набор (или несколько наборов) команд для выполнения одной или нескольких методик, описанных в настоящем документе.
[000125] Пример вычислительного устройства (1000) включает процессор (502), основную память (504) (например, постоянное запоминающее устройство (ПЗУ) или динамическую оперативную память (DRAM)) и устройство хранения данных (518), которые взаимодействуют друг с другом по шине (530).
[000126] Процессор (502) может быть представлен одним или более универсальными вычислительными устройствами, например микропроцессором, центральным процессором и т.д. В частности, процессор (502) может представлять собой микропроцессор с полным набором команд (CISC), микропроцессор с сокращенным набором команд (RISC), микропроцессор с командными словами сверхбольшой длины (VLIW), процессор, реализующий другой набор команд, или процессоры, реализующие комбинацию наборов команд. Процессор (502) также может представлять собой одно или несколько вычислительных устройств специального назначения, например заказную интегральную микросхему (ASIC), программируемую пользователем вентильную матрицу (FPGA), процессор цифровых сигналов (DSP), сетевой процессор и т.п. Процессор (502) настроен на выполнение команд (526) для осуществления рассмотренных в настоящем документе операций и функций.
[000127] Вычислительное устройство (1000) может дополнительно включать устройство сетевого интерфейса (522), устройство визуального отображения (510), устройство ввода символов (512) (например, клавиатуру), и устройство ввода - сенсорный экран (514).
[000128] Устройство хранения данных (518) может содержать машиночитаемый носитель данных (524), в котором хранится один или более наборов команд (526) и в котором реализован один или более из методов или функций настоящего изобретения. Команды (526) также могут находиться полностью или по меньшей мере частично в основной памяти (504) и/или в процессоре (502) во время выполнения их в вычислительном устройстве (1000), при этом оперативная память (504) и процессор (502) также составляют машиночитаемый носитель данных. Команды (526) дополнительно могут передаваться или приниматься по сети (516) через устройство сетевого интерфейса (522).
[000129] В некоторых вариантах реализации команды 526 могут включать команды способа 100 для использования верифицированных пользователем данных с целью обучения моделей уверенности и/или способа 400 для верификации атрибутов информационных объектов, использующихся для обучения моделей уверенности, в соответствии с одним или более аспектами настоящего изобретения. Хотя машиночитаемый носитель данных 524 показан в примере на фиг. 16 в виде одного носителя, термин «машиночитаемый носитель» следует понимать в широком смысле, подразумевающем один или более носителей (например, централизованную или распределенную базу данных и (или) соответствующие кэши и серверы), в которых хранится один или более наборов команд. Термин «машиночитаемый носитель данных» также следует понимать как включающий любой носитель, который может хранить, кодировать или переносить набор команд для выполнения машиной и который обеспечивает выполнение машиной любой одной или более методик настоящего изобретения. Поэтому термин «машиночитаемый носитель данных» относится, помимо прочего, к твердотельной памяти, а также к оптическим и магнитным носителям.
[000130] Способы, компоненты и функции, описанные в этом документе, могут быть реализованы с помощью дискретных компонентов оборудования либо они могут быть встроены в функции других компонентов оборудования, например ASICS (специализированная заказная интегральная схема), FPGA (программируемая логическая интегральная схема), DSP (цифровой сигнальный процессор) или аналогичных устройств. Кроме того, способы, компоненты и функции могут быть реализованы с помощью модулей встроенного программного обеспечения или функциональных схем аппаратного обеспечения. Способы, компоненты и функции также могут быть реализованы с помощью любой комбинации аппаратного обеспечения и программных компонентов либо исключительно с помощью программного обеспечения.
[000131] В приведенном выше описании изложены многочисленные детали. Однако любому специалисту в этой области техники, ознакомившемуся с этим описанием, должно быть очевидно, что настоящее изобретение может быть осуществлено на практике без этих конкретных деталей. В некоторых случаях хорошо известные структуры и устройства показаны в виде блок-схем, без детализации, чтобы не усложнять описание настоящего изобретения.
[000132] Некоторые части описания предпочтительных вариантов реализации изобретения представлены в виде алгоритмов и символического представления операций с битами данных в памяти компьютера. Такие описания и представления алгоритмов представляют собой средства, используемые специалистами в области обработки данных, что обеспечивает наиболее эффективную передачу сути работы другим специалистам в данной области. В контексте настоящего описания, как это и принято, алгоритмом называется логически непротиворечивая последовательность операций, приводящих к желаемому результату. Операции подразумевают действия, требующие физических манипуляций с физическими величинами. Обычно, хотя и не обязательно, эти величины принимают форму электрических или магнитных сигналов, которые можно хранить, передавать, комбинировать, сравнивать и выполнять другие манипуляции. Иногда удобно, прежде всего для обычного использования, описывать эти сигналы в виде битов, значений, элементов, символов, терминов, цифр и т.д.
[000133] Однако следует иметь в виду, что все эти и подобные термины должны быть связаны с соответствующими физическими величинами и что они являются лишь удобными обозначениями, применяемыми к этим величинам. Если не указано дополнительно, принимается, что в последующем описании термины «определение», «вычисление», «расчет», «получение», «установление», «выявление», «изменение» и т.п. относятся к действиям и процессам вычислительной системы или аналогичной электронной вычислительной системы, которая использует и преобразует данные, представленные в виде физических (например, электронных) величин в реестрах и устройствах памяти вычислительной системы, в другие данные, также представленные в виде физических величин в устройствах памяти или реестрах вычислительной системы или иных устройствах хранения, передачи или отображения такой информации.
[000134] Настоящее изобретение также относится к устройству для выполнения операций, описанных в настоящем документе. Такое устройство может быть специально сконструировано для требуемых целей либо оно может представлять собой универсальный компьютер, который избирательно приводится в действие или перенастраивается с помощью программы, хранящейся в памяти компьютера. Такая компьютерная программа может храниться на машиночитаемом носителе данных, например, помимо всего прочего, на диске любого типа, включая дискеты, оптические диски, CD-ROM и магнитно-оптические диски, постоянные запоминающие устройства (ПЗУ), оперативные запоминающие устройства (ОЗУ), СППЗУ, ЭППЗУ, магнитные или оптические карты и носители любого типа, подходящие для хранения электронной информации.
[000135] Следует понимать, что приведенное выше описание призвано иллюстрировать, а не ограничивать сущность изобретения. Специалистам в данной области техники после прочтения и уяснения приведенного выше описания станут очевидны и различные другие варианты реализации изобретения. Исходя из этого область применения изобретения должна определяться с учетом прилагаемой формулы изобретения, а также всех областей применения эквивалентных способов, на которые в равной степени распространяется формула изобретения.
Claims (54)
1. Способ извлечения информации из текстов на естественном языке, включающий:
получение обрабатывающим устройством первого значения атрибута и второго значения атрибута, связанного с информационным объектом, представляющим сущность, относящуюся к тексту на естественном языке;
получение первого значения степени уверенности, соответствующей первому значению атрибута, и второго значения степени уверенности, соответствующей второму значению атрибута, где указанная степень уверенности выражает степень ассоциативной связи с по меньшей мере одним информационным объектом;
в случае, если первое значение степени уверенности ниже заданного порогового значения, вывод первого значения атрибута с использованием графического интерфейса пользователя для верификации;
в ответ на получение через графический интерфейс пользователя для верификации первого отклика, верифицирующего первое значение атрибута, выполнение по меньшей мере одного из следующих действий: повышение первого значения степени уверенности за счет первого заранее определенного значения или задание первого значения степени уверенности для второго заранее определенного значения;
вывод второго значения атрибута с использованием графического интерфейса пользователя для верификации; и
при неполучении второго отклика, верифицирующего второе значение атрибута, через графический интерфейс пользователя для верификации до инициирующего события, выполнение по меньшей мере одного из следующих действий: повышение второго значения степени уверенности с помощью третьего заранее определенного значения или задание второго значения степени уверенности с помощью четвертого заранее определенного значения, где третье заранее определенное значение меньше, чем первое заранее определенное значение, и четвертое заранее определенное значение меньше, чем второе заранее определенное значение.
2. Способ по п. 1, в котором инициирующее событие обеспечивается путем истечения некоторого срока ожидания, который инициализируется выводом на экран второго значения атрибута.
3. Способ по п. 1, в котором инициирующее событие обеспечивается путем получения третьего отклика пользователя, который побуждает графический интерфейс пользователя для верификации прекратить вывод второго значения атрибута.
4. Способ по п. 1, в котором инициирующее событие обеспечивается путем получения, после вывода второго значения атрибута, четвертого отклика пользователя, который побуждает графический интерфейс пользователя для верификации прекратить свою работу.
5. Способ по п. 1, дополнительно включающий:
добавление к обучающей выборке данных по меньшей мере части текста на естественном языке, ссылающейся на информационный объект, первого значения атрибута и первого значения степени уверенности.
6. Способ по п. 5, дополнительно включающий:
определение с использованием обучающей выборки данных по меньшей мере одного параметра функции уверенности, представленной линейным классификатором, используемой для определения значений степени уверенности для значений атрибутов информационных объектов, извлеченных из текстов на естественном языке.
7. Способ по п. 1, отличающийся тем, что получение значения атрибута дополнительно включает:
интерпретацию множества семантических структур с целью извлечения множества информационных объектов, представляющих сущности, на которые ссылается текст на естественном языке, с помощью набора продукционных правил.
8. Способ по п. 1, отличающийся тем, что получение значения степени уверенности дополнительно включает:
вычисление значения функции уверенности, используемой для определения степени уверенности для значений атрибутов, относящихся к информационным объектам, извлеченным из текстов на естественном языке.
9. Способ по п. 1, отличающийся тем, что первый отклик, верифицирующий первое значение атрибута, подтверждает первое значение атрибута.
10. Способ по п. 1, отличающийся тем, что первый отклик, верифицирующий первое значение атрибута, изменяет первое значение атрибута.
11. Способ по п. 6, в котором линейный классификатор выдает расстояние от информационного объекта до разделительной гиперплоскости в гиперпространстве признаков, связанных с набором продукционных правил.
12. Система извлечения информации из текстов на естественном языке, включающая:
запоминающее устройство;
процессор, связанный с запоминающим устройством, причем этот процессор выполнен с возможностью:
получать первое значение атрибута и второе значение атрибута, связанное с информационным объектом, представляющим сущность, относящуюся к тексту на естественном языке;
получать первое значение степени уверенности, соответствующей первому значению атрибута, и второе значение степени уверенности, соответствующей второму значению атрибута, где указанная степень уверенности выражает степень ассоциативной связи с по меньшей мере одним информационным объектом;
в случае, если первое значение степени уверенности ниже заданного порогового значения, выводить первое значение атрибута с использованием графического интерфейса пользователя для верификации;
в ответ на получение через графический интерфейс пользователя для верификации первого отклика, верифицирующего первое значение атрибута, выполнять по меньшей мере одно из следующих действий: повышение первого значения степени уверенности за счет первого заранее определенного значения или задание первого значения степени уверенности для второго заранее определенного значения;
выводить второе значение атрибута с использованием графического интерфейса пользователя для верификации; и
при неполучении второго отклика, верифицирующего второе значение атрибута, через графический интерфейс пользователя для верификации до инициирующего события, выполнять по меньшей мере одно из следующих действий: повышение второго значения степени уверенности с помощью третьего заранее определенного значения или задание второго значения степени уверенности с помощью четвертого заранее определенного значения, где третье заранее определенное значение меньше, чем первое заранее определенное значение, и четвертое заранее определенное значение меньше, чем второе заранее определенное значение.
13. Система по п. 12, отличающаяся тем, что процессор дополнительно выполнен с возможностью:
добавления к обучающей выборке данных по меньшей мере части текста на естественном языке, ссылающейся на информационный объект, первого значения атрибута и первого значения степени уверенности.
14. Система по п. 13, отличающаяся тем, что процессор дополнительно выполнен с возможностью:
определения с использованием обучающей выборки данных по меньшей мере одного параметра функции уверенности, представленной линейным классификатором, используемой для определения значений степеней уверенности для значений атрибутов информационных объектов, извлеченных из текстов на естественном языке.
15. Система по п. 12, отличающаяся тем, что получение значения атрибута дополнительно включает:
интерпретацию множества семантических структур с целью извлечения множества информационных объектов, представляющих сущности, на которые ссылается текст на естественном языке, с помощью набора продукционных правил.
16. Система по п. 12, отличающаяся тем, что получение значения степени уверенности дополнительно включает:
вычисление значения функции уверенности, используемой для определения степени уверенности для значений атрибутов, относящихся к информационным объектам, извлеченным из текстов на естественном языке.
17. Система по п. 12, в которой инициирующее событие обеспечивается одним из следующих способов: путем истечения некоторого срока ожидания, который инициализируется выводом на экран второго значения атрибута, путем получения третьего отклика пользователя, который побуждает графический интерфейс пользователя для верификации прекратить вывод второго значения атрибута, или путем получения, после вывода второго значения атрибута, четвертого отклика пользователя, который побуждает графический интерфейс пользователя для верификации прекратить свою работу.
18. Система по п. 14, в которой линейный классификатор выдает расстояние от информационного объекта до разделительной гиперплоскости в гиперпространстве признаков, связанных с набором продукционных правил.
19. Постоянный машиночитаемый носитель данных, содержащий исполняемые команды, которые при выполнении вычислительной системой побуждают вычислительную систему:
получать первое значение атрибута и второе значение атрибута, связанное с информационным объектом, представляющим сущность, относящуюся к тексту на естественном языке;
получать первое значение степени уверенности, соответствующей первому значению атрибута, и второго значения степени уверенности, соответствующей второму значению атрибута, где указанная степень уверенности выражает степень ассоциативной связи с по меньшей мере одним информационным объектом;
в случае, если первое значение степени уверенности ниже заданного порогового значения, выводить первое значение атрибута с использованием графического интерфейса пользователя для верификации;
в ответ на получение через графический интерфейс пользователя для верификации первого отклика, верифицирующего первое значение атрибута, выполнять по меньшей мере одно из следующих действий: повышение первого значения степени уверенности за счет первого заранее определенного значения или задание первого значения степени уверенности для второго заранее определенного значения;
выводить второе значение атрибута с использованием графического интерфейса пользователя для верификации; и
при неполучении второго отклика, верифицирующего второе значение атрибута, через графический интерфейс пользователя для верификации до инициирующего события, выполнять по меньшей мере одно из следующих действий: повышение второго значения степени уверенности с помощью третьего заранее определенного значения или задание второго значения степени уверенности с помощью четвертого заранее определенного значения, где третье заранее определенное значение меньше, чем первое заранее определенное значение, и четвертое заранее определенное значение меньше, чем второе заранее определенное значение.
20. Носитель данных по п. 19, дополнительно включающий исполняемые команды для вычислительной системы, обеспечивающие возможность:
добавления к обучающей выборке данных по меньшей мере части текста на естественном языке, ссылающейся на информационный объект, первого значения атрибута и первого значения степени уверенности.
21. Носитель данных по п. 20, дополнительно включающий исполняемые команды для вычислительной системы, обеспечивающие возможность:
определения, с использованием обучающей выборки данных по меньшей мере одного параметра функции уверенности, представленной линейным классификатором, используемой для определения значений степеней уверенности для значений атрибутов информационных объектов, извлеченных из текстов на естественном языке.
22. Носитель данных по п. 20, отличающийся тем, что получение значения атрибута также включает:
интерпретацию множества семантических структур с целью извлечения множества информационных объектов, представляющих сущности, на которые ссылается текст на естественном языке, с помощью набора продукционных правил.
23. Носитель данных по п. 21, в котором линейный классификатор выдает расстояние от информационного объекта до разделительной гиперплоскости в гиперпространстве признаков, связанных с набором продукционных правил.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2016150632A RU2640718C1 (ru) | 2016-12-22 | 2016-12-22 | Верификация атрибутов информационных объектов |
US15/419,078 US10706369B2 (en) | 2016-12-22 | 2017-01-30 | Verification of information object attributes |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2016150632A RU2640718C1 (ru) | 2016-12-22 | 2016-12-22 | Верификация атрибутов информационных объектов |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2640718C1 true RU2640718C1 (ru) | 2018-01-11 |
Family
ID=62630553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2016150632A RU2640718C1 (ru) | 2016-12-22 | 2016-12-22 | Верификация атрибутов информационных объектов |
Country Status (2)
Country | Link |
---|---|
US (1) | US10706369B2 (ru) |
RU (1) | RU2640718C1 (ru) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2691855C1 (ru) * | 2018-03-23 | 2019-06-18 | Общество с ограниченной ответственностью "Аби Продакшн" | Обучение классификаторов, используемых для извлечения информации из текстов на естественном языке |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102018100895A1 (de) * | 2018-01-16 | 2019-07-18 | Zoe Life Technologies Holding AG | Währungseinheiten für Wissen |
CN110458099B (zh) * | 2019-08-12 | 2021-02-12 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
US20230008868A1 (en) * | 2021-07-08 | 2023-01-12 | Nippon Telegraph And Telephone Corporation | User authentication device, user authentication method, and user authentication computer program |
US20240303288A1 (en) * | 2022-12-05 | 2024-09-12 | Meta Platforms, Inc. | Similarity mapping of post content in hyperspace |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7174507B2 (en) * | 2003-02-10 | 2007-02-06 | Kaidara S.A. | System method and computer program product for obtaining structured data from text |
US7383254B2 (en) * | 2005-04-13 | 2008-06-03 | Microsoft Corporation | Method and system for identifying object information |
US20110096983A1 (en) * | 2009-10-26 | 2011-04-28 | Ancestry.Com Operations Inc. | Devices, systems and methods for transcription suggestions and completions |
US20140372473A1 (en) * | 2005-05-31 | 2014-12-18 | Google Inc. | Unsupervised extraction of facts |
RU2571373C2 (ru) * | 2014-03-31 | 2015-12-20 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Метод анализа тональности текстовых данных |
US20160085871A1 (en) * | 2009-09-27 | 2016-03-24 | Alibaba Group Holding Limited | Searching for information based on generic attributes of the query |
US9524518B1 (en) * | 2012-07-02 | 2016-12-20 | Amazon Technologies, Inc. | Product image information extraction |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040122846A1 (en) | 2002-12-19 | 2004-06-24 | Ibm Corporation | Fact verification system |
US20050097019A1 (en) * | 2003-11-04 | 2005-05-05 | Jacobs Ronald F. | Method and system for validating financial instruments |
US20080256579A1 (en) * | 2004-03-29 | 2008-10-16 | Koninklijke Philips Electronics, N.V. | Assisted User Control in Recommenders |
US7724889B2 (en) * | 2004-11-29 | 2010-05-25 | At&T Intellectual Property I, L.P. | System and method for utilizing confidence levels in automated call routing |
US8122026B1 (en) | 2006-10-20 | 2012-02-21 | Google Inc. | Finding and disambiguating references to entities on web pages |
US8418206B2 (en) * | 2007-03-22 | 2013-04-09 | United Video Properties, Inc. | User defined rules for assigning destinations of content |
US9110882B2 (en) | 2010-05-14 | 2015-08-18 | Amazon Technologies, Inc. | Extracting structured knowledge from unstructured text |
US8775400B2 (en) | 2010-06-30 | 2014-07-08 | Microsoft Corporation | Extracting facts from social network messages |
US9424524B2 (en) | 2013-12-02 | 2016-08-23 | Qbase, LLC | Extracting facts from unstructured text |
-
2016
- 2016-12-22 RU RU2016150632A patent/RU2640718C1/ru active
-
2017
- 2017-01-30 US US15/419,078 patent/US10706369B2/en not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7174507B2 (en) * | 2003-02-10 | 2007-02-06 | Kaidara S.A. | System method and computer program product for obtaining structured data from text |
US7383254B2 (en) * | 2005-04-13 | 2008-06-03 | Microsoft Corporation | Method and system for identifying object information |
US20140372473A1 (en) * | 2005-05-31 | 2014-12-18 | Google Inc. | Unsupervised extraction of facts |
US20160085871A1 (en) * | 2009-09-27 | 2016-03-24 | Alibaba Group Holding Limited | Searching for information based on generic attributes of the query |
US20110096983A1 (en) * | 2009-10-26 | 2011-04-28 | Ancestry.Com Operations Inc. | Devices, systems and methods for transcription suggestions and completions |
US9524518B1 (en) * | 2012-07-02 | 2016-12-20 | Amazon Technologies, Inc. | Product image information extraction |
RU2571373C2 (ru) * | 2014-03-31 | 2015-12-20 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Метод анализа тональности текстовых данных |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2691855C1 (ru) * | 2018-03-23 | 2019-06-18 | Общество с ограниченной ответственностью "Аби Продакшн" | Обучение классификаторов, используемых для извлечения информации из текстов на естественном языке |
Also Published As
Publication number | Publication date |
---|---|
US20180181651A1 (en) | 2018-06-28 |
US10706369B2 (en) | 2020-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2637992C1 (ru) | Способ извлечения фактов из текстов на естественном языке | |
RU2662688C1 (ru) | Извлечение информации из смысловых блоков документов с использованием микромоделей на базе онтологии | |
RU2619193C1 (ru) | Многоэтапное распознавание именованных сущностей в текстах на естественном языке на основе морфологических и семантических признаков | |
RU2646380C1 (ru) | Использование верифицированных пользователем данных для обучения моделей уверенности | |
RU2657173C2 (ru) | Сентиментный анализ на уровне аспектов с использованием методов машинного обучения | |
US10691891B2 (en) | Information extraction from natural language texts | |
RU2628431C1 (ru) | Подбор параметров текстового классификатора на основе семантических признаков | |
RU2626555C2 (ru) | Извлечение сущностей из текстов на естественном языке | |
RU2646386C1 (ru) | Извлечение информации с использованием альтернативных вариантов семантико-синтаксического разбора | |
RU2628436C1 (ru) | Классификация текстов на естественном языке на основе семантических признаков | |
RU2635257C1 (ru) | Сентиментный анализ на уровне аспектов и создание отчетов с использованием методов машинного обучения | |
RU2679988C1 (ru) | Извлечение информационных объектов с помощью комбинации классификаторов | |
RU2697647C1 (ru) | Система и метод автоматического создания шаблонов | |
RU2686000C1 (ru) | Извлечение информационных объектов с использованием комбинации классификаторов, анализирующих локальные и нелокальные признаки | |
RU2607976C1 (ru) | Извлечение информации из структурированных документов, содержащих текст на естественном языке | |
RU2732850C1 (ru) | Классификация документов по уровням конфиденциальности | |
RU2636098C1 (ru) | Использование глубинного семантического анализа текстов на естественном языке для создания обучающих выборок в методах машинного обучения | |
RU2640297C2 (ru) | Определение степеней уверенности, связанных со значениями атрибутов информационных объектов | |
RU2640718C1 (ru) | Верификация атрибутов информационных объектов | |
US20160062982A1 (en) | Natural language processing system and method | |
RU2618374C1 (ru) | Выявление словосочетаний в текстах на естественном языке | |
RU2665261C1 (ru) | Восстановление текстовых аннотаций, связанных с информационными объектами | |
RU2681356C1 (ru) | Обучение классификаторов, используемых для извлечения информации из текстов на естественном языке | |
RU2691855C1 (ru) | Обучение классификаторов, используемых для извлечения информации из текстов на естественном языке | |
RU2606873C2 (ru) | Создание онтологий на основе анализа текстов на естественном языке |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
QB4A | Licence on use of patent |
Free format text: LICENCE FORMERLY AGREED ON 20201211 Effective date: 20201211 |
|
QC41 | Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right |
Free format text: LICENCE FORMERLY AGREED ON 20201211 Effective date: 20220311 |