RU2000129197A - Способ упорядочения данных, представленных в текстовых информационных блоках данных - Google Patents

Способ упорядочения данных, представленных в текстовых информационных блоках данных

Info

Publication number
RU2000129197A
RU2000129197A RU2000129197/09A RU2000129197A RU2000129197A RU 2000129197 A RU2000129197 A RU 2000129197A RU 2000129197/09 A RU2000129197/09 A RU 2000129197/09A RU 2000129197 A RU2000129197 A RU 2000129197A RU 2000129197 A RU2000129197 A RU 2000129197A
Authority
RU
Russia
Prior art keywords
text
format
rules
blocks
data
Prior art date
Application number
RU2000129197/09A
Other languages
English (en)
Other versions
RU2210809C2 (ru
Inventor
Юрий Игоревич Припачкин
Геннадий Васильевич Сменцарев
Original Assignee
Открытое акционерное общество "Московская телекоммуникационная корпорация"
Filing date
Publication date
Application filed by Открытое акционерное общество "Московская телекоммуникационная корпорация" filed Critical Открытое акционерное общество "Московская телекоммуникационная корпорация"
Priority to RU2000129197/09A priority Critical patent/RU2210809C2/ru
Priority claimed from RU2000129197/09A external-priority patent/RU2210809C2/ru
Publication of RU2000129197A publication Critical patent/RU2000129197A/ru
Application granted granted Critical
Publication of RU2210809C2 publication Critical patent/RU2210809C2/ru

Links

Claims (6)

1. Способ упорядочения данных, представленных в текстовых информационных блоках данных, составленных по правилам контекстно-зависимой грамматики, отличающийся тем, что формируют языковые словари перевода единиц речи естественных языков в единицы первого внутреннего формата вычислительной системы, формируют настроечные блоки данных, задающие совокупность выбранных пользователем целевых структур, определяющих набор атрибутов, для каждого из которых заданы правила распознавания атрибута в тексте и преобразования распознанного атрибута во второй внутренний формат вычислительной системы, для каждой целевой структуры задают правила определения границ целевой структуры по результатам определения границ атрибутов и правила определения наличия и свойств отношений и связей целевой структуры с другими выбранными пользователем целевыми структурами, считывают текстовые информационные блоки данных, представленные в виде текстовых блоков данных произвольного формата, выявляют признаки, указывающие на принадлежность текстовых информационных блоков данных заранее заданному формату, на основании выявленных признаков определяют формат каждого из текстовых информационных блоков и для каждого из текстовых информационных блоков данных, для которого определен формат, формируют первый промежуточный блок данных путем преобразования формата считанного текстового информационного блока данных во внутренний текстовый формат вычислительной системы, для каждого из первых промежуточных блоков данных определяют принадлежность фрагментов текста первого промежуточного блока данных к одному из естественных языков, и, с учетом определенной принадлежности, выбирают соответствующие языку семантические правила и группу правил распознавания атрибутов, структур и их взаимосвязей, на основании выбранных правил для каждого из первых промежуточных блоков данных выявляют наличие атрибута, его границ и значений в первом промежуточном блоке данных, после чего производят перекодировку фрагментов первого промежуточного блока данных во второй промежуточный блок данных объектно-ориентированного внутреннего формата вычислительной системы, причем во втором промежуточном блоке данных формируют объект, в который переносят выявленные атрибуты и связи объекта с другими объектами, после чего дополняют объектно-ориентированную базу данных сформированными объектами путем записи второго промежуточного блока данных в область памяти вычислительной системы, занимаемой объектно-ориентированной базой данных.
2. Способ по п.1, отличающийся тем, что для распознавания собственных имен и категорийных понятий во втором промежуточном блоке данных дополнительно используют хранилище информации, в котором в объектном виде хранятся введенные ранее данные.
3. Способ по любому из предыдущих пунктов, отличающийся тем, что правила сравнения данных из исходного блока данных с объектами хранилища информации также выбираются из настроечного блока данных.
4. Способ по любому из предыдущих пунктов, отличающийся тем, что для каждого из возможных языков, на которых может быть представлен исходный текст, задаются самостоятельные целевые структуры.
5. Способ по любому из предыдущих пунктов, отличающийся тем, что по крайней мере некоторые из исходных блоков данных представлены в виде графических блоков данных
6. Способ по любому из предыдущих пунктов, отличающийся тем, что по крайней мере некоторые из исходных блоков данных представлены в виде текстовых блоков данных.
RU2000129197/09A 2000-11-21 2000-11-21 Способ упорядочения данных, представленных в текстовых информационных блоках данных RU2210809C2 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2000129197/09A RU2210809C2 (ru) 2000-11-21 2000-11-21 Способ упорядочения данных, представленных в текстовых информационных блоках данных

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2000129197/09A RU2210809C2 (ru) 2000-11-21 2000-11-21 Способ упорядочения данных, представленных в текстовых информационных блоках данных

Publications (2)

Publication Number Publication Date
RU2000129197A true RU2000129197A (ru) 2003-06-27
RU2210809C2 RU2210809C2 (ru) 2003-08-20

Family

ID=29245253

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2000129197/09A RU2210809C2 (ru) 2000-11-21 2000-11-21 Способ упорядочения данных, представленных в текстовых информационных блоках данных

Country Status (1)

Country Link
RU (1) RU2210809C2 (ru)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8166101B2 (en) 2003-08-21 2012-04-24 Microsoft Corporation Systems and methods for the implementation of a synchronization schemas for units of information manageable by a hardware/software interface system
US8238696B2 (en) 2003-08-21 2012-08-07 Microsoft Corporation Systems and methods for the implementation of a digital images schema for organizing units of information manageable by a hardware/software interface system
RU2246754C1 (ru) * 2003-12-29 2005-02-20 Антонов Александр Олегович Способ обмена информацией между абонентами сетей связи и машиночитаемый носитель данных
RU2500024C2 (ru) * 2011-12-27 2013-11-27 Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" Способ автоматизированного определения языка и (или) кодировки текстового документа
RU2544739C1 (ru) * 2014-03-25 2015-03-20 Игорь Петрович Рогачев Способ преобразования структурированного массива данных
RU2607989C1 (ru) * 2015-07-08 2017-01-11 Закрытое акционерное общество "МНИТИ" (сокращенно ЗАО "МНИТИ") Способ автоматизированного определения языка или языковой группы текста
RU2666277C1 (ru) * 2017-09-06 2018-09-06 Общество с ограниченной ответственностью "Аби Продакшн" Сегментация текста

Similar Documents

Publication Publication Date Title
US7979268B2 (en) String matching method and system and computer-readable recording medium storing the string matching method
KR100533810B1 (ko) 백과사전 질의응답 시스템의 지식베이스 반자동 구축 방법
CN110188168A (zh) 语义关系识别方法和装置
US20070156404A1 (en) String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method
CN106997382A (zh) 基于大数据的创新创意标签自动标注方法及系统
CN106776564A (zh) 一种基于知识图谱的语义识别方法及系统
CN113553853B (zh) 命名实体识别方法、装置、计算机设备及存储介质
CN114254653A (zh) 一种科技项目文本语义抽取与表示分析方法
CN111694927B (zh) 一种基于改进词移距离算法的文档自动评阅方法
Moncla et al. Automated geoparsing of paris street names in 19th century novels
CN106980620A (zh) 一种对中文字串进行匹配的方法及装置
CN109740164A (zh) 基于深度语义匹配的电力缺陷等级识别方法
CN111104437A (zh) 基于对象模型的试验数据统一检索方法和系统
CN112966117A (zh) 实体链接方法
CN113449514A (zh) 一种适用于特定垂直领域的文本纠错方法及其纠错装置
CN113590779A (zh) 一种空管领域知识图谱的智能问答系统构建方法
Sethi et al. Automated title generation in English language using NLP
RU2000129197A (ru) Способ упорядочения данных, представленных в текстовых информационных блоках данных
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统
CN117152770A (zh) 一种面向手写输入的书写能力智能评测方法及系统
CN117113094A (zh) 一种基于语义递进融合的长文本相似度计算方法及装置
CN111813927A (zh) 一种基于主题模型和lstm的句子相似度计算方法
CN113836941B (zh) 一种合同导航方法及装置
CN112989068B (zh) 针对唐诗知识的知识图谱构建方法及唐诗知识问答系统
CN104866607B (zh) 一种东巴文释读数据库建立方法