RU2000129197A - Способ упорядочения данных, представленных в текстовых информационных блоках данных - Google Patents
Способ упорядочения данных, представленных в текстовых информационных блоках данныхInfo
- Publication number
- RU2000129197A RU2000129197A RU2000129197/09A RU2000129197A RU2000129197A RU 2000129197 A RU2000129197 A RU 2000129197A RU 2000129197/09 A RU2000129197/09 A RU 2000129197/09A RU 2000129197 A RU2000129197 A RU 2000129197A RU 2000129197 A RU2000129197 A RU 2000129197A
- Authority
- RU
- Russia
- Prior art keywords
- text
- format
- rules
- blocks
- data
- Prior art date
Links
- 230000000295 complement Effects 0.000 claims 1
- 230000000875 corresponding Effects 0.000 claims 1
- 230000001131 transforming Effects 0.000 claims 1
Claims (6)
1. Способ упорядочения данных, представленных в текстовых информационных блоках данных, составленных по правилам контекстно-зависимой грамматики, отличающийся тем, что формируют языковые словари перевода единиц речи естественных языков в единицы первого внутреннего формата вычислительной системы, формируют настроечные блоки данных, задающие совокупность выбранных пользователем целевых структур, определяющих набор атрибутов, для каждого из которых заданы правила распознавания атрибута в тексте и преобразования распознанного атрибута во второй внутренний формат вычислительной системы, для каждой целевой структуры задают правила определения границ целевой структуры по результатам определения границ атрибутов и правила определения наличия и свойств отношений и связей целевой структуры с другими выбранными пользователем целевыми структурами, считывают текстовые информационные блоки данных, представленные в виде текстовых блоков данных произвольного формата, выявляют признаки, указывающие на принадлежность текстовых информационных блоков данных заранее заданному формату, на основании выявленных признаков определяют формат каждого из текстовых информационных блоков и для каждого из текстовых информационных блоков данных, для которого определен формат, формируют первый промежуточный блок данных путем преобразования формата считанного текстового информационного блока данных во внутренний текстовый формат вычислительной системы, для каждого из первых промежуточных блоков данных определяют принадлежность фрагментов текста первого промежуточного блока данных к одному из естественных языков, и, с учетом определенной принадлежности, выбирают соответствующие языку семантические правила и группу правил распознавания атрибутов, структур и их взаимосвязей, на основании выбранных правил для каждого из первых промежуточных блоков данных выявляют наличие атрибута, его границ и значений в первом промежуточном блоке данных, после чего производят перекодировку фрагментов первого промежуточного блока данных во второй промежуточный блок данных объектно-ориентированного внутреннего формата вычислительной системы, причем во втором промежуточном блоке данных формируют объект, в который переносят выявленные атрибуты и связи объекта с другими объектами, после чего дополняют объектно-ориентированную базу данных сформированными объектами путем записи второго промежуточного блока данных в область памяти вычислительной системы, занимаемой объектно-ориентированной базой данных.
2. Способ по п.1, отличающийся тем, что для распознавания собственных имен и категорийных понятий во втором промежуточном блоке данных дополнительно используют хранилище информации, в котором в объектном виде хранятся введенные ранее данные.
3. Способ по любому из предыдущих пунктов, отличающийся тем, что правила сравнения данных из исходного блока данных с объектами хранилища информации также выбираются из настроечного блока данных.
4. Способ по любому из предыдущих пунктов, отличающийся тем, что для каждого из возможных языков, на которых может быть представлен исходный текст, задаются самостоятельные целевые структуры.
5. Способ по любому из предыдущих пунктов, отличающийся тем, что по крайней мере некоторые из исходных блоков данных представлены в виде графических блоков данных
6. Способ по любому из предыдущих пунктов, отличающийся тем, что по крайней мере некоторые из исходных блоков данных представлены в виде текстовых блоков данных.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2000129197/09A RU2210809C2 (ru) | 2000-11-21 | 2000-11-21 | Способ упорядочения данных, представленных в текстовых информационных блоках данных |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2000129197/09A RU2210809C2 (ru) | 2000-11-21 | 2000-11-21 | Способ упорядочения данных, представленных в текстовых информационных блоках данных |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2000129197A true RU2000129197A (ru) | 2003-06-27 |
RU2210809C2 RU2210809C2 (ru) | 2003-08-20 |
Family
ID=29245253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2000129197/09A RU2210809C2 (ru) | 2000-11-21 | 2000-11-21 | Способ упорядочения данных, представленных в текстовых информационных блоках данных |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2210809C2 (ru) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8166101B2 (en) | 2003-08-21 | 2012-04-24 | Microsoft Corporation | Systems and methods for the implementation of a synchronization schemas for units of information manageable by a hardware/software interface system |
US8238696B2 (en) | 2003-08-21 | 2012-08-07 | Microsoft Corporation | Systems and methods for the implementation of a digital images schema for organizing units of information manageable by a hardware/software interface system |
RU2246754C1 (ru) * | 2003-12-29 | 2005-02-20 | Антонов Александр Олегович | Способ обмена информацией между абонентами сетей связи и машиночитаемый носитель данных |
RU2500024C2 (ru) * | 2011-12-27 | 2013-11-27 | Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" | Способ автоматизированного определения языка и (или) кодировки текстового документа |
RU2544739C1 (ru) * | 2014-03-25 | 2015-03-20 | Игорь Петрович Рогачев | Способ преобразования структурированного массива данных |
RU2607989C1 (ru) * | 2015-07-08 | 2017-01-11 | Закрытое акционерное общество "МНИТИ" (сокращенно ЗАО "МНИТИ") | Способ автоматизированного определения языка или языковой группы текста |
RU2666277C1 (ru) * | 2017-09-06 | 2018-09-06 | Общество с ограниченной ответственностью "Аби Продакшн" | Сегментация текста |
-
2000
- 2000-11-21 RU RU2000129197/09A patent/RU2210809C2/ru not_active IP Right Cessation
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7979268B2 (en) | String matching method and system and computer-readable recording medium storing the string matching method | |
KR100533810B1 (ko) | 백과사전 질의응답 시스템의 지식베이스 반자동 구축 방법 | |
CN110188168A (zh) | 语义关系识别方法和装置 | |
US20070156404A1 (en) | String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method | |
CN106997382A (zh) | 基于大数据的创新创意标签自动标注方法及系统 | |
CN106776564A (zh) | 一种基于知识图谱的语义识别方法及系统 | |
CN113553853B (zh) | 命名实体识别方法、装置、计算机设备及存储介质 | |
CN114254653A (zh) | 一种科技项目文本语义抽取与表示分析方法 | |
CN111694927B (zh) | 一种基于改进词移距离算法的文档自动评阅方法 | |
Moncla et al. | Automated geoparsing of paris street names in 19th century novels | |
CN106980620A (zh) | 一种对中文字串进行匹配的方法及装置 | |
CN109740164A (zh) | 基于深度语义匹配的电力缺陷等级识别方法 | |
CN111104437A (zh) | 基于对象模型的试验数据统一检索方法和系统 | |
CN112966117A (zh) | 实体链接方法 | |
CN113449514A (zh) | 一种适用于特定垂直领域的文本纠错方法及其纠错装置 | |
CN113590779A (zh) | 一种空管领域知识图谱的智能问答系统构建方法 | |
Sethi et al. | Automated title generation in English language using NLP | |
RU2000129197A (ru) | Способ упорядочения данных, представленных в текстовых информационных блоках данных | |
CN116629258B (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及系统 | |
CN117152770A (zh) | 一种面向手写输入的书写能力智能评测方法及系统 | |
CN117113094A (zh) | 一种基于语义递进融合的长文本相似度计算方法及装置 | |
CN111813927A (zh) | 一种基于主题模型和lstm的句子相似度计算方法 | |
CN113836941B (zh) | 一种合同导航方法及装置 | |
CN112989068B (zh) | 针对唐诗知识的知识图谱构建方法及唐诗知识问答系统 | |
CN104866607B (zh) | 一种东巴文释读数据库建立方法 |