RU2014101126A

RU2014101126A - Автоматическое извлечение именованных сущностей из текста

Info

Publication number: RU2014101126A
Application number: RU2014101126/08A
Authority: RU
Inventors: Илья Владимирович Нехай
Original assignee: Общество с ограниченной ответственностью "Аби ИнфоПоиск"
Priority date: 2014-01-15
Filing date: 2014-01-15
Publication date: 2015-07-20
Also published as: US20150199333A1; RU2665239C2; US9588960B2

Abstract

1. Способ, включающий:извлечение процессором токенов из неразмеченного корпуса текстов;формирование процессором набора атрибутов для каждого токена на основании по меньшей мере глубокого семантико-синтаксического анализа, отличающееся тем, что в нем набор атрибутов включает лексические, синтаксические и семантические атрибуты;выбор процессором подмножества атрибутов для каждого токена;извлечение процессором атрибутов и категорий классификатора на основании обученной модели, отличающееся тем, что атрибуты классификатора связаны с одной или несколькими категориями;сравнение процессором подмножества атрибутов для каждого токена с атрибутами классификатора;классификацию процессором каждого токена по меньшей мере в одну из категорий на основании сравнения иформирование процессором размеченного текста на основании токенов, классифицированных по категориям.2. Способ по п. 1, дополнительно включающий:определение новых отношений между первым атрибутом и первой категорией на основании по меньшей мере классификации первого токена, идобавление взаимосвязи между первым атрибутом и первой категорией.3. Способ по п. 1, отличающийся тем, что в нем формирование атрибутов включает:формирование лексико-морфологической структуры неразмеченного корпуса текстов;определение возможных синтаксических связей в неразмеченном корпусе текстов на основании по меньшей мере лексико-морфологической структуры;выделение множества синтаксических деревьев на основании по меньшей мере возможных синтаксических связей;определение интегральной оценки каждого из множества синтаксических деревьев на основании референциаль

Claims

1. Способ, включающий:

извлечение процессором токенов из неразмеченного корпуса текстов;

формирование процессором набора атрибутов для каждого токена на основании по меньшей мере глубокого семантико-синтаксического анализа, отличающееся тем, что в нем набор атрибутов включает лексические, синтаксические и семантические атрибуты;

выбор процессором подмножества атрибутов для каждого токена;

извлечение процессором атрибутов и категорий классификатора на основании обученной модели, отличающееся тем, что атрибуты классификатора связаны с одной или несколькими категориями;

сравнение процессором подмножества атрибутов для каждого токена с атрибутами классификатора;

классификацию процессором каждого токена по меньшей мере в одну из категорий на основании сравнения и

формирование процессором размеченного текста на основании токенов, классифицированных по категориям.

2. Способ по п. 1, дополнительно включающий:

определение новых отношений между первым атрибутом и первой категорией на основании по меньшей мере классификации первого токена, и

добавление взаимосвязи между первым атрибутом и первой категорией.

3. Способ по п. 1, отличающийся тем, что в нем формирование атрибутов включает:

формирование лексико-морфологической структуры неразмеченного корпуса текстов;

определение возможных синтаксических связей в неразмеченном корпусе текстов на основании по меньшей мере лексико-морфологической структуры;

выделение множества синтаксических деревьев на основании по меньшей мере возможных синтаксических связей;

определение интегральной оценки каждого из множества синтаксических деревьев на основании референциальных оценок;

выбор первого синтаксического дерева на основании интегральной оценки;

формирование независимой от языка семантической структуры на основании первого синтаксического дерева и

формирование атрибутов на основании независимой от языка семантической структуры.

4. Способ по п. 1, дополнительно включающий получение обученной модели путем:

сравнения атрибутов классификатора с маркерами, полученными из размеченного корпуса текстов;

присвоения весов атрибутам в соответствии с результатами этого сравнения и

максимизации точности, полноты или F-меры, оцененных по отдельному размеченному корпусу оценки.

5. Способ по п. 1, отличающийся тем, что выбор подмножества атрибутов включает:

ранжирование атрибутов на основе метрики корреляции, при котором метрика корреляции сравнивает значения атрибутов и размеченный текст и

выбор подмножества атрибутов на основании по меньшей мере ранжирования.

6. Способ по п. 5, отличающийся тем, что первое и второе ранжирование основаны по меньшей мере на оценках точности, полноты и F-меры.

7. Способ по п. 1, отличающийся тем, что выбор подмножества атрибутов включает:

определение первого подмножества атрибутов;

определение первой оценки обучающей модели, основанной по меньшей мере на первом подмножестве атрибутов;

определение второго подмножества атрибутов, в котором второе подмножество атрибутов включает первое подмножество атрибутов и по меньшей мере один дополнительный атрибут;

определение второй оценки обучающей модели, основанной по меньшей мере на втором подмножестве атрибутов, а также

выбор подмножества атрибутов из первого или из второго подмножества атрибутов на основании по меньшей мере первой и второй оценок.

8. Способ по п. 7, отличающийся тем, что первая и вторая оценки основаны по меньшей мере на оценках точности, полноты и F-меры.

9. Способ по п. 1, отличающийся тем, что выбор подмножества атрибутов включает:

определение всех атрибутов в качестве первого подмножества атрибутов;

определение второго подмножества атрибутов, в котором количество атрибутов меньше, чем в первом подмножестве атрибутов;

10. Способ по п. 9, отличающийся тем, что первая и вторая оценки основаны по меньшей мере на оценках точности, полноты и F-меры.

11. Способ по п. 1, отличающийся тем, что первый атрибут и второй атрибут скомбинированы для получения третьего атрибута, причем в нем первый токен классифицируется на основании по меньшей мере третьего атрибута.

12. Способ по п. 11, отличающийся тем, что первая и вторая оценки основаны по меньшей мере на оценках точности, полноты и F-меры.

13. Способ по п. 1, отличающийся тем, что атрибуты классификатора включают подмножество атрибутов обученной модели, в котором эти атрибуты классификатора выбираются по меньшей мере на основании F-меры.

14. Система, включающая:

один или несколько процессоров настроенных на:

извлечение токенов из неразмеченного корпуса текстов;

формирование набора атрибутов для каждого из этих токенов на основании по меньшей мере глубокого семантико-синтаксического анализа, отличающееся тем, что набор атрибутов включает лексические, синтаксические и семантические атрибуты;

выбор подмножества атрибутов для каждого из этих токенов;

извлечение атрибутов классификаторов и категории на основании обученной модели, отличающееся тем, что эти атрибуты классификатора связаны с одной или несколькими категориями;

сравнение подмножество атрибутов для каждого токена с атрибутами классификатора;

классификацию каждого токена по меньшей мере в одну категорию на основании сравнения и

формирование размеченного текста на основании отнесенных к категориям токенов.

15. Система по п. 14, один или несколько процессоров которой дополнительно настроены на:

16. Система по п. 14, отличающаяся тем, что один или несколько процессоров настроены на формирование атрибутов, которые настроены на:

17. Система по п. 14, отличающаяся тем, что один или несколько процессоров дополнительно настроены на:

сравнение атрибутов классификатора с тегами, полученными из размеченного корпуса текстов;

присвоение весов атрибутам в соответствии с результатами этого сравнения и

максимизацию оценок точности, полноты и F-меры, оцененных на отдельном размеченном корпусе оценки для того, чтобы получить обученный классификатор.

18. Система по п. 14, отличающаяся тем, что один или несколько процессоров настроены на выбор подмножества признаков и настроены на:

19. Машиночитаемый носитель информации, на который записаны команды, включающие:

команды для извлечения токенов из неразмеченного корпуса текста;

команды для формирования множества атрибутов для каждого токена на основании по меньшей мере глубокого семантико-синтаксического анализа, отличающегося тем, что это множество атрибутов включает лексические, синтаксические и семантические атрибуты;

команды для выбора подмножества атрибутов для каждого токена;

команды для извлечения атрибутов классификатора и категорий на основании на обученной модели, отличающейся тем, что атрибуты классификатора связаны с одной или несколькими категориями;

команды для сравнения подмножества атрибутов для каждого токена с атрибутами классификатора;

команды для классификации каждого токена по меньшей мере в одной категории на основании сравнения, а также

команды для формирования размеченного текста на основании отнесенных к категориям токенов.

20. Машиночитаемый носитель информации по п. 19, команды в котором дополнительно включают:

команды для определения новых отношений между первым атрибутом и первой категорией на основании по меньшей мере классификации первого токена, а также

команды для добавления этого отношения между первым атрибутом и первой категорией.

21. Машиночитаемый носитель информации по п. 19, отличающийся тем, что в нем команды для формирования атрибутов включают:

команды для формирования лексико-морфологической структуры неразмеченного корпуса текстов;

команды для определения потенциальных синтаксических связей в неразмеченном корпусе текстов на основании по меньшей мере лексико-морфологической структуры;

команды для выделения множества синтаксических деревьев на основании по меньшей мере потенциальных синтаксических связей;

команды для определения интегральной оценки для каждого из множества синтаксических деревьев на основании референциальных оценок;

команды для выбора первого синтаксического дерева на основании интегральной оценки;

команды для формирования независимой от языка семантической структуры на основании первого синтаксического дерева, а также

команды для формирования атрибутов на основании независимой от языка семантической структуры.

22. Машиночитаемый носитель информации по п. 19, отличающийся тем, что записанные в нем команды дополнительно содержат:

команды для сравнения атрибутов классификатора с маркерами, полученными из размеченного корпуса текстов;

команды для присвоения весов атрибутам в соответствии с результатами сравнения и

команды для максимизации оценок точности, полноты и F-меры, оценивающихся по отдельному размеченному корпусу, используемого для оценки для того, чтобы получить обученный классификатор.

23. Машиночитаемый носитель информации по п. 19, отличающийся тем, что записанные в нем команды для выбора подмножества атрибутов включают:

команды для определения первого подмножества атрибутов;

команды для определения первой оценки обучаемой модели, основанной по меньшей мере на первом подмножестве атрибутов;

команды для определения второго подмножества атрибутов, в котором второе подмножество атрибутов содержит первое подмножество атрибутов и по меньшей мере один дополнительный атрибут;

команды для определения второй оценки обучаемой модели, основанной по меньшей мере на втором подмножестве атрибутов, а также

команды для выбора подмножества атрибутов из первого или второго подмножества атрибутов на основании по меньшей мере первой и второй оценок.