RU2000129197A

RU2000129197A - Способ упорядочения данных, представленных в текстовых информационных блоках данных

Info

Publication number: RU2000129197A
Application number: RU2000129197/09A
Authority: RU
Inventors: Юрий Игоревич Припачкин; Геннадий Васильевич Сменцарев
Original assignee: Открытое акционерное общество "Московская телекоммуникационная корпорация"
Filing date: 2000-11-21
Publication date: 2003-06-27

Claims

1. Способ упорядочения данных, представленных в текстовых информационных блоках данных, составленных по правилам контекстно-зависимой грамматики, отличающийся тем, что формируют языковые словари перевода единиц речи естественных языков в единицы первого внутреннего формата вычислительной системы, формируют настроечные блоки данных, задающие совокупность выбранных пользователем целевых структур, определяющих набор атрибутов, для каждого из которых заданы правила распознавания атрибута в тексте и преобразования распознанного атрибута во второй внутренний формат вычислительной системы, для каждой целевой структуры задают правила определения границ целевой структуры по результатам определения границ атрибутов и правила определения наличия и свойств отношений и связей целевой структуры с другими выбранными пользователем целевыми структурами, считывают текстовые информационные блоки данных, представленные в виде текстовых блоков данных произвольного формата, выявляют признаки, указывающие на принадлежность текстовых информационных блоков данных заранее заданному формату, на основании выявленных признаков определяют формат каждого из текстовых информационных блоков и для каждого из текстовых информационных блоков данных, для которого определен формат, формируют первый промежуточный блок данных путем преобразования формата считанного текстового информационного блока данных во внутренний текстовый формат вычислительной системы, для каждого из первых промежуточных блоков данных определяют принадлежность фрагментов текста первого промежуточного блока данных к одному из естественных языков, и, с учетом определенной принадлежности, выбирают соответствующие языку семантические правила и группу правил распознавания атрибутов, структур и их взаимосвязей, на основании выбранных правил для каждого из первых промежуточных блоков данных выявляют наличие атрибута, его границ и значений в первом промежуточном блоке данных, после чего производят перекодировку фрагментов первого промежуточного блока данных во второй промежуточный блок данных объектно-ориентированного внутреннего формата вычислительной системы, причем во втором промежуточном блоке данных формируют объект, в который переносят выявленные атрибуты и связи объекта с другими объектами, после чего дополняют объектно-ориентированную базу данных сформированными объектами путем записи второго промежуточного блока данных в область памяти вычислительной системы, занимаемой объектно-ориентированной базой данных.

2. Способ по п.1, отличающийся тем, что для распознавания собственных имен и категорийных понятий во втором промежуточном блоке данных дополнительно используют хранилище информации, в котором в объектном виде хранятся введенные ранее данные.

3. Способ по любому из предыдущих пунктов, отличающийся тем, что правила сравнения данных из исходного блока данных с объектами хранилища информации также выбираются из настроечного блока данных.

4. Способ по любому из предыдущих пунктов, отличающийся тем, что для каждого из возможных языков, на которых может быть представлен исходный текст, задаются самостоятельные целевые структуры.

5. Способ по любому из предыдущих пунктов, отличающийся тем, что по крайней мере некоторые из исходных блоков данных представлены в виде графических блоков данных

6. Способ по любому из предыдущих пунктов, отличающийся тем, что по крайней мере некоторые из исходных блоков данных представлены в виде текстовых блоков данных.