RU2638013C2 - Способ и устройство построения базы знаний - Google Patents

Способ и устройство построения базы знаний Download PDF

Info

Publication number
RU2638013C2
RU2638013C2 RU2016113502A RU2016113502A RU2638013C2 RU 2638013 C2 RU2638013 C2 RU 2638013C2 RU 2016113502 A RU2016113502 A RU 2016113502A RU 2016113502 A RU2016113502 A RU 2016113502A RU 2638013 C2 RU2638013 C2 RU 2638013C2
Authority
RU
Russia
Prior art keywords
information
entities
text
potential
specified
Prior art date
Application number
RU2016113502A
Other languages
English (en)
Other versions
RU2016113502A (ru
Inventor
Пинцзэ ВАН
Чжицзюнь ЧЭНЬ
Фэй Лун
Original Assignee
Сяоми Инк.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Сяоми Инк. filed Critical Сяоми Инк.
Publication of RU2016113502A publication Critical patent/RU2016113502A/ru
Application granted granted Critical
Publication of RU2638013C2 publication Critical patent/RU2638013C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

Изобретение относится к способу и устройству построения базы знаний. Технический результат заключается в повышении скорости построения базы знаний. Способ построения базы знаний содержит этапы: получают текстовые корпусы и определяют, содержат ли текстовые корпусы первую информацию в соответствии с предварительно заданным шаблоном описания свойств, содержащим словари, шаблоны предложений или любую их комбинацию, причем первая информация содержит информацию о свойстве сущностей в предварительно заданном наборе сущностей, и извлекают первую информацию, если определено, что первая информация содержится в текстовых корпусах, и выполняют построение базы знаний на основе первой информации и сущности, соответствующей первой информации, причем этап определения, содержат ли текстовые корпусы первую информацию, включает: отбор из текстовых корпусов первого набора предложений, содержащего сущности в предварительно заданном наборе сущностей, получение первой потенциальной информации из первого набора предложений согласно словарям, шаблонам предложений или их комбинации, и вычисление числа вхождения первой потенциальной информации и определение первой потенциальной информации в качестве первой информации, если число вхождения превышает предварительно заданное пороговое значение. 5 н. и 6 з.п. ф-лы, 12 ил.

Description

В настоящей заявке испрашивается приоритет по заявке на патент Китая №201510515887.2, поданной 20 августа 2015 г., содержание которой в полном объеме включено в настоящий документ путем ссылки.
Область техники
Настоящее изобретение относится, в целом, к области искусственного интеллекта, в частности, к способу и устройству построения базы знаний.
Уровень техники
Распознавание именованных сущностей РИС (Named Entity Recognition, NER), также известное как «распознавание исключительных названий», относится к распознаванию в тексте сущностей, имеющих специфическое значение, к которым, главным образом, относятся имена людей, географические названия, наименования организаций, исключительные существительные и т.д.
Пищевая ценность продуктов представляет собой особую именованную сущность, которая включает в себя название и содержание питательных веществ, например, «углевод», «20 граммов».
В настоящее время информация о пищевой ценности продуктов обычно предоставляется на форумах, в комментариях, блогах, новостях и энциклопедиях, причем данная информация важна для построения базы знаний о пищевой ценности продуктов. Однако, если анализ знаний осуществляется с помощью человеческих ресурсов, то данный процесс требует значительных человеческих ресурсов и построение базы знаний происходит медленно.
Раскрытие изобретения
В настоящем изобретении предложены способ и устройство построения базы знаний, которые направлены на устранение проблем, связанных с тратой человеческих ресурсов и низкой скоростью в случае построения базы знаний с помощью человеческих ресурсов.
В соответствии с первым аспектом в настоящем изобретении предложен способ построения базы знаний, содержащий следующие этапы: получают текстовые корпусы и определяют, содержат ли текстовые корпусы первую информацию в соответствии с предварительно заданным шаблоном описания свойств, причем указанная первая информация содержит информацию о свойстве сущностей в предварительно заданном наборе сущностей, извлекают первую информацию, если определено, что первая информация содержится в указанных текстовых корпусах, и выполняют построение базы знаний на основе первой информации и сущности, соответствующей указанной первой информации.
В одном из предпочтительных вариантов осуществления настоящего изобретения предварительно заданный шаблон описания свойств содержит словари, шаблоны предложений или любую их комбинацию для определения того, содержат ли текстовые корпусы первую информацию, причем этап, на котором определяют, содержат ли текстовые корпусы первую информацию в соответствии с предварительно заданным шаблоном описания свойств, предусматривает: отбор из текстовых корпусов первого набора предложений, содержащего сущности в предварительно заданном наборе сущностей, согласно алгоритму распознавания именованных сущностей, получение первой потенциальной информации из указанного первого набора предложений согласно словарям, шаблонам предложений или их комбинации в предварительно заданном шаблоне описания свойств, причем указанная первая потенциальная информация содержит информацию о свойстве сущностей в предварительно заданном наборе сущностей, вычисление числа вхождения первой потенциальной информации и определение указанной первой потенциальной информации в качестве первой информации, если число вхождения превышает предварительно заданное пороговое значение.
В еще одном предпочтительном варианте осуществления настоящего изобретении предварительно заданный шаблон описания свойств содержит словари, шаблоны предложений или любую их комбинацию для определения того, содержат ли текстовые корпусы первую информацию, причем этап, на котором определяют, содержат ли текстовые корпусы первую информацию в соответствии с предварительно заданным шаблоном описания свойств, предусматривает: отбор из текстовых корпусов первого набора предложений, содержащего сущности в предварительно заданном наборе сущностей, согласно алгоритму распознавания именованных сущностей, получение совокупности первой потенциальной информации из указанного первого набора предложений согласно предварительно заданному шаблону описания свойств, причем указанная совокупность первой потенциальной информации содержит информацию о свойстве сущностей, объединение сущностей, содержащихся в указанном первом наборе предложений, и соответствующей совокупности первой потенциальной информации в набор двухэлементных кортежей, и вычисление числа вхождения каждой первой потенциальной информации, удаление двухэлементных кортежей, в которых имеется первая потенциальная информация с числом вхождения, меньшим предварительно заданного порогового значения, и определение элементов, содержащихся в текущем наборе двухэлементных кортежей, в качестве первой информации.
В другом предпочтительном варианте осуществления настоящего изобретения указанный способ дополнительно содержит этапы, на которых определяют, содержат ли текстовые корпусы вторую информацию в соответствии с предварительно заданным шаблоном описания свойств и первой информацией, причем указанная вторая информация содержит информацию о свойстве первой информации, извлекают вторую информацию, если определено, что она содержится в текстовых корпусах, и обновляют базу знаний на основе первой информации, второй информации и сущности, соответствующей указанной первой информации.
В другом предпочтительном варианте осуществления настоящего изобретения этап, на котором определяют, содержат ли текстовые корпусы вторую информацию в соответствии с предварительно заданным шаблоном описания свойств и первой информацией, предусматривает: получение из текстовых корпусов второго набора предложений, содержащего первую информацию в соответствии с предварительно заданным шаблоном описания свойств, и, если указанный второй набор предложений содержит числовую сущность, извлечение указанной числовой сущности в качестве второй потенциальной информации, объединение сущности, первой информации и второй информации в набор триплетов, и для каждой первой информации каждой сущности в текущем наборе триплетов, вычисление числа вхождения каждой соответствующей второй потенциальной информации, и определение второй потенциальной информации, число вхождения которой является наибольшим, в качестве второй информации текущей первой информации текущей сущности.
В еще одном варианте осуществления настоящего изобретения предварительно заданный шаблон описания свойств содержит один или несколько из следующих шаблонов: содержание *, <содержат | содержит> <#ЧИСЛО> грамм *, * <содержится | входит в состав | содержится в большом количестве> <в | внутри> *, где «*» представляет собой знак подстановки для согласования с любой строкой, «|» представляет собой символ, обозначающий «или», «<#ЧИСЛО>» представляет собой символ для согласования с числовой строкой, а знаки «<» и «>» встречаются в паре для того, чтобы охватить множество синонимов.
Согласно второму аспекту в настоящем изобретении предложено устройство построения базы знаний, причем указанное устройство содержит: получающий и определяющий модуль, выполненный с возможностью получения текстовых корпусов и определения того, содержат ли текстовые корпусы первую информацию в соответствии с предварительно заданным шаблоном описания свойств, причем указанная первая информация содержит информацию о свойстве сущностей в предварительно заданном наборе сущностей, и первый определяющий, извлекающий и добавляющий модуль, выполненный с возможностью извлечения первой информации, если определено, что первая информация содержится в указанных текстовых корпусах, и построения базы знаний на основе первой информации и сущности, соответствующей указанной первой информации.
В одном из предпочтительных вариантов осуществления настоящего изобретения предварительно заданный шаблон описания свойств содержит словари, шаблоны предложений или любую их комбинацию для определения того, содержат ли текстовые корпусы первую информацию, причем указанный получающий и определяющий модуль содержит отборочный подмодуль, выполненный с возможностью отбора из текстовых корпусов первого набора предложений, содержащего сущности в предварительно заданном наборе сущностей, согласно алгоритму распознавания именованных сущностей, получающий подмодуль, выполненный с возможностью получения первой потенциальной информации из указанного первого набора предложений согласно словарям, шаблонам предложений и любой их комбинации в предварительно заданном шаблоне описания свойств, причем указанная первая потенциальная информация содержит информацию о свойстве сущностей в предварительно заданном наборе сущностей, и вычислительный и определяющий подмодуль, выполненный с возможностью вычисления числа вхождения первой потенциальной информации и определения указанной первой потенциальной информации в качестве первой информации, если число вхождения превышает предварительно заданное пороговое значение.
В другом варианте осуществления настоящего изобретения предварительно заданный шаблон описания свойств содержит словари, шаблоны предложений или любую их комбинацию для определения того, содержат ли текстовые корпусы первую информацию, причем указанный получающий и определяющий модуль содержит отборочный подмодуль, выполненный с возможностью отбора из текстовых корпусов первого набора предложений, содержащего сущности в предварительно заданном наборе сущностей, согласно алгоритму распознавания именованных сущностей, получающий подмодуль, выполненный с возможностью получения первой потенциальной информации из указанного первого набора предложений согласно словарям, шаблонам предложений и их комбинации в предварительно заданном шаблоне описания свойств, причем указанная первая потенциальная информация содержит информацию о свойстве сущностей в предварительно заданном наборе сущностей, и вычислительный и определяющий подмодуль, выполненный с возможностью вычисления числа вхождения первой потенциальной информации и определения указанной первой потенциальной информации в качестве первой информации, если число вхождения превышает предварительно заданное пороговое значение.
В одном из вариантов осуществления настоящего изобретения указанное устройство дополнительно содержит определяющий модуль, выполненный с возможностью определения того, содержат ли текстовые корпусы вторую информацию в соответствии с предварительно заданным шаблоном описания свойств и первой информацией, причем указанная вторая информация содержит информацию о свойстве первой информации, и второй определяющий, извлекающий и добавляющий модуль, выполненный с возможностью извлечения второй информации, если определено, что она содержится в текстовых корпусах, и обновления базы знаний на основе первой информации, второй информации и сущности, соответствующей указанной первой информации.
В другом предпочтительном варианте осуществления настоящего изобретения указанный определяющий модуль содержит получающий подмодуль, выполненный с возможностью получения из текстовых корпусов второго набора предложений, содержащего первую информацию в соответствии с предварительно заданным шаблоном описания свойств, извлекающий подмодуль, выполненный с возможностью извлечения числовой сущности в качестве второй потенциальной информации, если указанный второй набор предложений содержит числовую сущность, объединяющий подмодуль, выполненный с возможностью объединения сущности, первой информации и второй информации в набор триплетов, и вычислительный и определяющий подмодуль, выполненный с возможностью, для каждой первой информации каждой сущности в текущем наборе триплетов, вычисления числа вхождения каждой соответствующей второй потенциальной информации, и определения второй потенциальной информации, число вхождения которой является наибольшим, в качестве второй информации текущей первой информации текущей сущности.
В еще одном варианте осуществления настоящего изобретения предварительно заданный шаблон описания свойств содержит один или несколько из следующих шаблонов: содержание *, <содержат | содержит> <#ЧИСЛО> грамм *, * <содержится | входит в состав | содержится в большом количестве> <в | внутри> *, где «*» представляет собой знак подстановки для согласования с любой строкой, «|» представляет собой символ, обозначающий «или», «<#ЧИСЛО>» представляет собой символ для согласования с числовой строкой, а знаки «<» и «>» встречаются в паре для того, чтобы охватить множество синонимов.
Согласно третьему аспекту в настоящем изобретении предложено устройство построения базы знаний, причем указанное устройство содержит процессор и память, предназначенную для хранения инструкций, исполняемых процессором, причем указанный процессор выполнен с возможностью:
получения текстовых корпусов и определения того, содержат ли текстовые корпусы первую информацию в соответствии с предварительно заданным шаблоном описания свойств, причем указанная первая информация содержит информацию о свойстве сущностей в предварительно заданном наборе сущностей, и извлечения первой информации, если определено, что первая информация содержится в указанных текстовых корпусах, и построения базы знаний на основе первой информации и сущности, соответствующей указанной первой информации.
Технические решения, раскрытые в настоящем изобретении, имеют следующие преимущества: база знаний может быть построена автоматически за счет получения текстовых корпусов, извлечения первой информации, если определено, что текстовые корпусы содержат первую информацию, и построения базы знаний согласно первой информации и соответствующей сущности. При этом отсутствует необходимость в том, чтобы процесс анализа знаний осуществлялся с помощью человеческих ресурсов, в результате чего удается сэкономить человеческие ресурсы и повысить скорость построения базы знаний.
Настоящее изобретение позволяет эффективно удалять вещества, которые не относятся к питательным веществам пищевых продуктов, за счет вычисления числа вхождения полученной первой потенциальной информации и определения первой потенциальной информации, число вхождения которой превышает предварительно заданное пороговое значение, в качестве первой информации (то есть, первая потенциальная информация с небольшим числом вхождения удаляется). Таким образом, точность базы знаний повышается.
Связь между сущностями и первой информацией поясняется тем, что она представлена в виде двухэлементных кортежей. Таким образом, первую информацию, соответствующую неверной сущности, можно легко удалить.
Если определено, что вторая информация, например, информация о содержании питательных веществ пищевого продукта, содержится в текстовых корпусах, то указанную вторую информацию можно извлечь из текстовых корпусов, а базу знаний обновить в соответствии с первой информацией, второй информацией и сущностью, соответствующей указанной первой информации, в результате чего база знаний улучшается.
Связь между сущностями, первой информацией и второй информацией может быть пояснена за счет того, что она представлена в виде триплетов, благодаря чему вторую информацию, соответствующую первой информации, можно легко получить, например, можно легко получить информацию о содержании питательных веществ пищевого продукта. Таким образом, точность второй информации повышается, и точность базы знаний, в свою очередь, также улучшается. Многочисленный состав предварительно заданного шаблона описания свойств предусмотрен для того, чтобы облегчить последующий отбор первой информации из текстовых корпусов.
Следует понимать, что и представленный выше раздел описания «Раскрытие изобретения», и нижеследующий подробный раздел описания «Осуществление изобретения» приведены лишь в качестве примера, при этом они не ограничивают настоящее изобретение.
Краткое описание чертежей
Прилагаемые чертежи, включенные в состав описания и образующие его часть, иллюстрируют предпочтительные варианты осуществления настоящего изобретения и совместно с настоящим описанием служат для пояснения принципов настоящего изобретения.
На фиг. 1 показана блок-схема, иллюстрирующая способ построения базы знаний согласно одному из предпочтительных вариантов осуществления настоящего изобретения.
На фиг. 2 показана блок-схема, иллюстрирующая способ построения базы знаний согласно другому предпочтительному варианту осуществления настоящего изобретения.
На фиг. 3 схематично проиллюстрирован сценарий применения способа построения базы знаний согласно оному из предпочтительных вариантов осуществления настоящего изобретения.
На фиг. 4 показана блок-схема, иллюстрирующая способ определения того, содержат ли текстовые корпусы первую информацию, согласно одному из предпочтительных вариантов осуществления настоящего изобретения.
На фиг. 5 показана блок-схема, иллюстрирующая способ определения того, содержат ли текстовые корпусы первую информацию, согласно другому предпочтительному варианту осуществления настоящего изобретения.
На фиг. 6 показана блок-схема, иллюстрирующая способ определения того, содержат ли текстовые корпусы вторую информацию, согласно одному из предпочтительных вариантов осуществления настоящего изобретения.
На фиг. 7 схематично показано устройство построения базы знаний согласно одному из предпочтительных вариантов осуществления настоящего изобретения.
На фиг. 8 схематично показано устройство построения базы знаний согласно другому предпочтительному варианту осуществления настоящего изобретения.
На фиг. 9 схематично показано устройство построения базы знаний согласно еще одному предпочтительному варианту осуществления настоящего изобретения.
На фиг. 10 схематично показано устройство построения базы знаний согласно другому предпочтительному варианту осуществления настоящего изобретения.
На фиг. 11 схематично показано устройство построения базы знаний согласно еще одному предпочтительному варианту осуществления настоящего изобретения.
На фиг. 12 схематично показано устройство построения базы знаний согласно одному из предпочтительных вариантов осуществления настоящего изобретения.
Осуществление изобретения
Далее, приведено подробное описание предпочтительных вариантов осуществления настоящего изобретения, примеры которых проиллюстрированы на прилагаемых чертежах. Нижеследующее описание относится к прилагаемым чертежам, на которых одни и те же номера позиций на разных чертежах обозначают одинаковые или схожие элементы, если не указано иное. Реализации настоящего изобретения, изложенные в нижеследующем описании предпочтительных вариантов, не отражают все возможные реализации, предусмотренные настоящим изобретением. Наоборот, они представляют собой лишь примеры устройств и способов, соответствующих аспектам настоящего изобретения, заявленным в прилагаемой формуле изобретения.
На фиг. 1 показана блок-схема, иллюстрирующая способ построения базы знаний согласно одному из предпочтительных вариантов осуществления настоящего изобретения. Как показано на фиг. 1, способ построения базы знаний может быть применен в отношении сервера. При этом способ содержит этапы S101 – S102.
На этапе S101 получают текстовые корпусы и определяют, содержат ли указанные текстовые корпусы первую информацию в соответствии с предварительно заданным шаблоном описания свойств.
В рассматриваемом варианте указанный предварительно заданный шаблон описания свойств содержит словари, шаблоны предложений или любую их комбинацию для определения того, содержат ли текстовые корпусы первую информацию, при этом первая информация может содержать информацию о свойстве сущностей в предварительно заданном наборе сущностей.
В одном из вариантов осуществления настоящего изобретения указанные сущности в предварительно заданном наборе сущностей могут относится, помимо прочего, к пищевым продуктам, воздуху, спорту и т.д., причем информация о свойстве пищевого продукта может представлять собой информацию о питательных веществах, информация о свойстве воздуха может представлять собой информацию о его компонентах, информация о свойстве спорта может представлять собой информацию о затратах энергии в час и т.д. Как видно из вышеизложенного, первая информация может, помимо прочего, относится к питательным веществам пищевого продукта.
В одном из предпочтительных вариантов осуществления настоящего изобретения, согласно которому сущность представляет собой пищевой продукт и обеспечивают построение базы знаний о пищевой ценности продукта, предварительно заданный шаблон описания свойств может содержать, помимо прочего, один или несколько из следующих шаблонов:
содержание * (например, содержание сахара), «содержат | содержит> <#ЧИСЛО> грамм * (например, содержит 20 грамм углеводов), * <содержится | входит в состав | содержится в большом количестве> <в | внутри> * (например, витамин С содержится в большом количестве в киви). Например, «*» представляет собой знак подстановки для согласования с любой строкой, а «|» представляет собой символ, обозначающий «или», «<#ЧИСЛО>» представляет собой символ для согласования с числовой строкой, причем знаки «<» и «>» встречаются в паре для того, чтобы охватить множество синонимов. Например, «<содержит | содержат> <#ЧИСЛО> грамм *» обозначает, что «содержит <#ЧИСЛО> грамм *» или «содержат <#ЧИСЛО> грамм *».
В рассматриваемом варианте сервер может просматривать текстовые корпусы посредством поискового робота и определять, содержат ли текстовые корпусы информацию о питательных веществах пищевого продукта в соответствии с предварительно заданным шаблоном описания свойств.
На этапе S102 извлекают первую информацию, если определено, что она содержится в текстовых корпусах, и выполняют построение базы знаний на основе первой информации и соответствующей сущности.
В рассматриваемом варианте, если определено, что текстовые корпусы содержат информацию о питательных веществах пищевого продукта, то можно извлечь указанную информацию о питательных веществах и сохранить ее в базе данных в сочетании с соответствующим пищевым продуктом.
В раскрытом выше варианте осуществления способа построения базы знаний, база знаний может быть построена автоматически путем получения текстовых корпусов, извлечения первой информации, если определено, что текстовые корпусы содержат первую информацию, и построения базы знаний согласно первой информации и соответствующей сущности. При этом отсутствует необходимость в том, чтобы процесс анализа знаний осуществлялся с помощью человеческих ресурсов, в результате чего удается сэкономить человеческие ресурсы и повысить скорость построения базы знаний.
На фиг. 2 показана блок-схема, иллюстрирующая способ построения базы знаний согласно другому предпочтительному варианту осуществления настоящего изобретения. Как показано на фиг. 2 после этапа S102 могут быть предусмотрены этапы S103 – S104.
На этапе S103 определяют, содержат ли текстовые корпусы вторую информацию в соответствии с предварительно заданным шаблоном описания свойств и первой информацией.
При этом вторая информация содержит свойство первой информации. Например, если первая информация относится к питательным веществам пищевого продукта, то свойство первой информации может представлять собой содержание указанных питательных веществ, то есть, вторая информация может представлять собой содержание питательных веществ.
В рассматриваемом варианте, можно определить, содержат ли текстовые корпусы информацию о содержании питательных веществ пищевого продукта в соответствии с указанным выше предварительно заданным шаблоном описания свойств и указанными питательными веществами.
На этапе S104 извлекают вторую информацию, если определено, что она содержится в текстовых корпусах и обновляют базу знаний на основе первой информации, второй информации и сущности, соответствующей указанной первой информации.
В рассматриваемом варианте, если определено, что текстовые корпусы содержат вторую информацию, например, информацию о содержание питательных веществ пищевого продукта, то вторую информацию можно извлечь из текстовых корпусов и выполнить построение базы знаний согласно первой информации, второй информации и сущности, соответствующей первой информации, тем самым, обеспечивая завершение процесса построения базы знаний.
В рассматриваемом варианте осуществления способа построения базы знаний, вторую информацию извлекают, если определено, что она содержится в текстовых корпусах, причем построение базы знаний выполняют в соответствии с первой информацией, второй информацией и сущностью, соответствующей первой информации, что улучшает процесс построения базы знаний.
В качестве примера рассмотрим построение базы знаний о питательных веществах пищевого продукта, при этом ниже приведено описание данного процесса со ссылкой на фиг. 3.
Как показано на фиг. 3, устройство 31 может просматривать текстовые корпусы на Web-странице посредством поискового робота. В рассматриваемом варианте, указанное устройство 31 может представлять собой такое устройство, как сервер, персональный компьютер и т.д., при этом настоящее изобретение этим не ограничивается. В одном из вариантов осуществления настоящего изобретения, сервер 32 может представлять собой сервер Wiki, Baidu, Sina, or Neteasy и т.д. Указанное устройство 31 получает текстовые корпусы, содержащие название пищевого продукта в соответствии с алгоритмом РИС (NER). При этом определяют, содержат ли полученные текстовые корпусы информацию о питательных веществах пищевого продукта в соответствии с предварительно заданным шаблоном описания свойств. Если информация о питательных веществах пищевого продукта содержится в текстовых корпусах, то ее извлекают, причем построение базы знаний о питательных веществах пищевого продукта выполняют согласно названию пищевого продукта и соответствующим питательным веществам. Устройство 31 может также определять, содержат ли текстовые корпусы информацию о содержании питательных веществ в пищевом продукте в соответствии с предварительно заданным шаблоном описания свойств и питательными веществами пищевого продукта. Информацию о питательных веществ пищевого продукта извлекают, если она содержится в текстовых корпусах, и добавляют соответствующим образом в базу знаний для построения базы знаний о пищевой ценности продукта.
На фиг. 4 представлена блок-схема, иллюстрирующая способ определения того, содержат ли текстовые корпусы первую информацию, согласно одному из предпочтительных вариантов осуществления настоящего изобретения.
На этапе S401 из текстовых корпусов в соответствии с алгоритмом РИС (NER) отбирают первый набор предложений, содержащий сущности предварительно заданного набора сущностей.
В одном из вариантов осуществления настоящего изобретения, алгоритм РИС (NER) может содержать, помимо прочего, метод условных случайных полей УСП (Conditional Random Field, CRF), метод словарей и гибридный метод. Предварительно заданный набор сущностей может представлять собой, например, набор сущностей, относящихся к пищевому продукту, набор сущностей, относящихся к воздуху, набор сущностей, относящихся к спорту.
В качестве примера предварительно заданного набора сущностей рассмотрим набор сущностей, относящихся к пищевому продукту. Первый набор предложений, содержащий информацию о пищевом продукте, можно отобрать из текстовых корпусов на основе метода УСП (CRF). В рассматриваемом варианте, первый набор предложений, содержащий информацию о пищевом продукте, можно также отобрать на основе алгоритма распознавания ключевых слов и т.д.
На этапе S402 из первого набора предложений получают первую потенциальную информацию в соответствии со словарем, шаблоном предложений или их комбинацией в предварительно заданном шаблоне описания свойств, причем первая потенциальная информация содержит информацию о свойстве сущностей в предварительно заданном наборе сущностей.
При этом предварительно заданный шаблон описания свойств может представлять собой лексико-синтактический шаблон. Лексико-синтактические шаблоны содержат один или несколько из следующих шаблонов: содержание * (например, содержание сахара), <содержат | содержит> <#ЧИСЛО> грамм * (например, содержит 20 грамм углеводов), * <содержится | входит в состав | содержится в большом количестве> <в | внутри> * (например, витамин С содержится в большом количестве в киви).
После отбора первого набора предложений, содержащего информацию о пищевом продукте, можно извлечь из указанного первого набора предложений потенциальные питательные вещества в соответствии с предварительно заданным шаблоном описания свойств. Например, потенциальными питательными веществами, полученными из помидоров, являются каротин, витамин С, натрий и кальций; потенциальными питательными веществами, полученными из моркови, являются каротин, витамин С, натрий и сахар; потенциальными питательными веществами, полученными из говядины, являются калий, фосфор, натрий, кальций, камень, и т.д.
На этапе S403 вычисляют число вхождения первой потенциальной информации и, если указанное число вхождения первой потенциальной информации превышает предварительно заданное пороговое значение, то первую потенциальную информацию определяют в качестве первой информации.
Предварительно заданное пороговое значение можно при необходимости легко менять. В одном из предпочтительных вариантов осуществления настоящего изобретения предварительно заданное пороговое значение может быть от 1 до 10, причем настоящее изобретение этим не ограничивается. Предварительно заданное пороговое значение может также быть больше 10 в зависимости от конкретной ситуации.
В рассматриваемом варианте, предположим, что предварительно заданное пороговое значение составляет 2, если число вхождения камня равно 1, а число вхождения каждого из остальных потенциальных питательных веществ превышает 1, то после вычисления числа вхождения каждого потенциального питательного вещества, остальные потенциальные питательные вещества определяют в качестве питательных веществ. Таким образом, вещество, не относящееся к питательным веществам пищевого продукта, эффективно удаляется.
Настоящее изобретение не ограничивается указанным выше описанием, и этап S403 может также предусматривать:
вычисление числа вхождения первой потенциальной информации, и, если число вхождения первой потенциальной информации меньше предварительно заданного порогового значения, то указанную первую потенциальную информацию не определяют в качестве первой информации, в противном случае первую потенциальную информацию определяют в качестве первой информации.
В рассматриваемом варианте, предварительно заданное пороговое значение можно выбрать равным 10, но настоящее изобретение этим не ограничивается. Предварительно заданное пороговое значение можно выбрать большим или меньшим 10 в зависимости от конкретной ситуации.
В рассмотренном варианте, если число вхождения камня равно 1, а число вхождения каждого из остальных потенциальных питательных веществ больше 10, то после вычисления числа вхождения каждого из потенциальных питательных веществ, остальные потенциальные питательные вещества определяют в качестве питательных веществ, а камень не определяют в качестве питательного вещества. Таким образом, вещество, не относящееся к питательным веществам пищевого продукта, эффективно удаляется.
Как видно из вышеизложенного, определить то, содержат ли текстовые корпусы первую информацию, можно посредством раскрытого выше способа.
В раскрытом выше варианте, вычисляют число вхождения полученной первой потенциальной информации, и первую потенциальную информацию, число вхождения которой превышает предварительно заданное пороговое значение, определяют в качестве первой информации, то есть, первую потенциальную информацию, число вхождения которой мало, удаляют. Таким образом, вещество, не относящееся к питательным веществам, эффективно удаляют, а точность базы знаний повышается.
На фиг. 5 показана блок-схема, иллюстрирующая способ определения того, содержат ли текстовые корпусы первую информацию, согласно другому предпочтительному варианту осуществления настоящего изобретения. Как видно на фиг. 5, указанный способ содержит следующие этапы.
На этапе S501 из текстовых корпусов отбирают первый набор предложений, содержащий сущности в предварительно заданном наборе, согласно алгоритму РИС (NER).
На этапе S502 из первого набора предложений получают совокупность первой потенциальной информации согласно предварительно заданному шаблону описания свойств, причем первая потенциальная информация содержит информацию о свойстве сущностей.
На этапе S503 сущности в первом наборе сущностей и соответствующую совокупность первой потенциальной информации объединяют в набор двухэлементных кортежей.
Предположим, что предварительно заданный набор сущностей представляет собой набор сущностей Е пищевых продуктов, при этом набор предложений, содержащий сущности Е, можно отобрать из текстовых корпусов, причем согласованная сущность представляет собой Ei. Из контекста в предложении, посредством лексико-синтактического шаблона получают потенциальные питательные вещества NC и объединяют их в набор двухэлементных кортежей Т. Каждый элемент в наборе двухэлементных кортежей T имеет вид (Ei, NCij), причем потенциальные питательные вещества, соответствующие Ei, представляют собой {NCi1,NCi2… NCin}.
На этапе S504 вычисляют число вхождения каждой первой потенциальной информации и удаляют двухэлементные кортежи, в которых имеется первая потенциальная информация с числом вхождения, меньшим предварительно заданного порового значения, причем первую информацию определяют в соответствии с элементами в текущем наборе двухэлементных кортежей.
Далее, вычисляют число вхождения каждого питательного вещества NCij и удаляют двухэлементные кортежи, в которых имеется первая потенциальная информация с числом вхождения, меньшим предварительно заданного порогового значения (например, 2), для формирования нового набора двухэлементных кортежей T, причем элементы, содержащиеся в текущем наборе двухэлементных кортежей, определяют в качестве первой информации.
В рассматриваемом варианте, связь между сущностями и первой информацией объясняется тем, что она представлена в виде двухэлементных кортежей, благодаря чему первую информацию, соответствующую неверным сущностям, можно легко удалить.
На фиг. 6 показана блок-схема, иллюстрирующая способ определения того, содержат ли текстовые корпусы вторую информацию, согласно одному из предпочтительных вариантов осуществления настоящего изобретения. Как показано на фиг. 6, указанный способ содержит следующие этапы.
На этапе S601 из текстовых корпусов получают второй набор предложений, содержащий первую информацию согласно предварительно заданному шаблону описания свойств.
В рассматриваемом варианте, второй набор предложения, содержащий информацию о питательных веществах пищевых продуктов, получают в соответствии лексико-синтактическим шаблоном.
Например, из текстовых корпусов можно отобрать набор предложений с Ei и NCij в контексте.
На этапе S602 в качестве второй потенциальной информации извлекают числовую сущность, если она содержится во втором наборе предложений.
Поскольку содержание питательного вещества, как правило, имеет числовое значение, например «80 грамм», «70%», числовую сущность можно извлечь из второго набора предложений для того, чтобы получить вторую потенциальную информацию.
Кроме того, содержание питательного вещества часто измеряют на 100 грамм продукта, например, «банан содержит большое количество питательных веществ; 20 грамм углеводов, 1,2 грамма белков, 0,6 грамма жиров содержится на 100 грамм продукта».
На этапе S603 сущность, первую информацию и вторую потенциальную информацию объединяют в набор триплетов.
На этапе S604, для каждой первой информации каждой сущности в текущем наборе триплетов вычисляют число вхождения каждой соответствующей второй потенциальной информации, причем вторую потенциальную информацию с наибольшим числом вхождения определяют в качестве второй информации текущей первой информации текущей сущности.
В рассматриваемом варианте, сущность, первую информацию и вторую потенциальную информацию можно объединить в набор триплетов. После этого, для каждой первой информации каждой сущности в текущем наборе триплетов вычисляют число вхождения каждой соответствующей второй потенциальной информации, причем вторую потенциальную информацию с наибольшим числом вхождения определяют в качестве второй информации текущей первой информации текущей сущности.
Например, после извлечения числовой сущности из второго набора предложений, можно сформировать набор триплетов Tr, при этом элементы в наборе имеют вид (Ei,NCij, Vijk), причем содержание потенциальных питательных веществ NCij, соответствующих Ei, имеет вид { Vij1,Vij2…Vijm}. После этого, для содержания Vijk каждого питательного вещества NCij каждой Ei вычисляют число, которое встречается в { Vij1,Vij2…Vijm}, при этом сохраняются только те триплеты, в которых число вхождения для Vijk является наибольшим, а все остальные Vijr удаляются из { Vij1,Vij2…Vijm}, то есть, все остальные Vijr удаляются из набора триплетов Tr, для формирования нового набора триплетов Tr. Потенциальное содержание, входящее в текущий Tr, определяют в качестве содержания соответствующего питательного вещества пищевого продукта.
Связь между сущностями, первой информацией и второй информацией объясняется тем, что она представлена в виде триплетов, благодаря чему вторую информацию, соответствующую первой информации, можно легко получить, например, можно легко получить информацию о содержании питательных веществ пищевого продукта.
Предположим, что число вхождения, извлеченное из текстовых корпусов «содержание витамина А в помидорах составляет 10 грамм», равняется 50, число вхождения «содержание витамина А в помидорах составляет 8 грамм» равняется 10, а число вхождения «содержание витамина А в помидорах составляет 1» равняется 3. Поскольку число 50 является наибольшим, содержание витамина А в помидорах составляет 10 грамм.
В раскрытом выше варианте, вычисляют число вхождения полученной второй потенциальной информации, при этом информацию с наибольшим числом вхождения определяют в качестве второй информации. Таким образом, точность второй информации повышается, что, в свою очередь, приводит к повышению точности базы знаний.
В настоящем описании также раскрыты предпочтительные варианты осуществления устройства построения базы знаний, соответствующие представленным выше предпочтительным вариантам осуществления способа построения базы знаний.
На фиг. 7 схематично показано устройство построения базы знаний согласно одному из предпочтительных вариантов осуществления настоящего изобретения. На фиг. 7 показано, что указанное устройство содержит получающий и определяющий модуль 71 и первый определяющий, извлекающий и добавляющий модуль 72.
Указанный получающий и определяющий модуль 71 выполнен с возможностью получения текстовых корпусов и определения того, содержат ли текстовые корпусы первую информацию в соответствии с предварительно заданным шаблоном описания свойств, причем первая информация содержит информацию о свойстве сущностей в предварительно заданном наборе сущностей.
Указанный первый определяющий, извлекающий и добавляющий модуль 72 выполнен с возможностью извлечения первой информации, если определено, что первая информация содержится в текстовых корпусах, и построения базы знаний на основе первой информации и сущности, соответствующей первой информации.
Процесс построения базы знаний посредством устройства, показанного на фиг. 7, раскрыт в варианте осуществления способа, представленного на фиг. 1, поэтому его описание здесь опускают.
В раскрытом выше варианте осуществления устройства построения базы знаний текстовые корпусы получены посредством получающего и определяющего модуля, первая информация извлечена посредством первого определяющего, извлекающего и добавляющего модуля, если она содержится в текстовых корпусах, при этом база знаний построена в соответствии с первой информацией и соответствующими сущностями. Как следует из вышеизложенного, база знаний может быть построена автоматически, без необходимости осуществления анализа знаний с помощью человеческих ресурсов, что позволяет сэкономить человеческие ресурсы и повысить скорость построения базы знаний.
На фиг. 8 схематично показано устройство построения базы знаний согласно другому предпочтительному варианту осуществления настоящего изобретения. Устройство, проиллюстрированное на фиг. 8, основано на устройстве с фиг. 7, причем получающий и определяющий модуль 71 содержит отборочный подмодуль 711, получающий подмодуль 712 и вычислительный и определяющий подмодуль 713.
Указанный отборочный подмодуль 711 выполнен с возможностью отбора из текстовых корпусов первого набора предложений, содержащего сущности в предварительно заданном наборе, в соответствии с алгоритмом РИС (NER).
Получающий подмодуль 712 выполнен с возможностью получения первой потенциальной информации из первого набора предложений в соответствии со словарями, шаблонами предложений или их комбинации, в предварительно заданном шаблоне описания свойств, причем первая потенциальная информация содержит информацию о свойстве сущностей в предварительно заданном наборе сущностей.
Указанный вычислительный и определяющий подмодуль 713 выполнен с возможностью вычисления числа вхождения первой потенциальной информации и определения указанной первой потенциальной информации в качестве первой информации, если число вхождения превышает предварительно заданное пороговое значение.
Процесс построения базы знаний посредством устройства, показанного на фиг. 8, раскрыт в варианте осуществления способа, представленного на фиг. 2, поэтому его описание здесь опускают.
В рассмотренном выше варианте, число вхождения полученной первой потенциальной информации вычисляют посредством вычислительного и определяющего подмодуля, при этом первую потенциальную информацию определяют в качестве первой информации, если число вхождения превышает предварительно заданное пороговое значение, то есть первая потенциальная информация с небольшим числом вхождением удаляется. Таким образом, вещество, не относящееся к питательным веществам пищевого продукта, эффективно удаляется, а точность базы знаний повышается.
На фиг. 9 схематично показано устройство построения базы знаний согласно еще одному предпочтительному варианту осуществления настоящего изобретения. Устройство, проиллюстрированное на фиг. 9, основано на устройстве с фиг. 7, причем получающий и определяющий модуль 71 содержит отборочный подмодуль 711, получающий подмодуль 712, объединяющий подмодуль 713 и вычислительный, удаляющий и определяющий подмодуль 714.
Указанный отборочный подмодуль 711 выполнен с возможностью отбора из текстовых корпусов первого набора предложений, содержащего сущности в предварительно заданном наборе, в соответствии с алгоритмом РИС (NER).
Указанный получающий подмодуль 712 выполнен с возможностью получения совокупности первой потенциальной информации из первого набора предложений, обеспеченного фильтрующим подмодулем 711, в соответствии с предварительно заданным шаблоном описания свойств, причем первая потенциальная информация содержит информацию о свойстве сущностей.
Указанный объединяющий подмодуль 713 выполнен с возможностью объединения сущностей, содержащихся в первом наборе предложений, и соответствующей совокупности первой потенциальной информации в набор двухэлементных кортежей.
Указанный вычислительный, удаляющий и определяющий подмодуль 714 выполнен с возможностью вычисления числа вхождения каждой первой потенциальной информации, удаления двухэлементных кортежей, в которых имеется первая потенциальная информация с числом вхождения, меньшим предварительно заданного порового значения, и определения элементов, содержащихся в текущем наборе двухэлементных кортежей, в качестве первой информации.
При этом, предварительно заданный шаблон описания свойств содержит словари, шаблоны предложений или любую их комбинацию для определения того, содержат ли текстовые корпусы первую информацию.
Процесс построения базы знаний посредством устройства, показанного на фиг. 9, раскрыт в варианте осуществления способа, представленного на фиг. 5, поэтому его описание здесь опускают.
В рассмотренном выше варианте, связь между сущностями и первой информацией поясняется тем, что она представлена в виде двухэлементных кортежей, благодаря чему первую информацию, соответствующую неверным сущностям, можно легко удалить.
На фиг. 10 схематично показано устройство построения базы знаний согласно другому предпочтительному варианту осуществления настоящего изобретения. Устройство, проиллюстрированное на фиг. 10, основано на устройстве с фиг. 7, причем указанное устройство построения базы знаний также содержит определяющий модуль 73 и второй определяющий, извлекающий и добавляющий модуль 74.
Указанный определяющий модуль 73 выполнен с возможностью определения того, содержат ли текстовые корпусы вторую информацию в соответствии с предварительно заданным шаблоном описания свойств и первой информацией, причем вторая информация содержит информацию о свойстве первой информации.
Указанный второй определяющий, извлекающий и добавляющий модуль 74 выполнен с возможностью извлечения второй информации, если определено, что она содержится в текстовых корпусах, и обновления базы знаний на основе первой информации, второй информации и сущности, соответствующей первой информации.
Процесс построения базы знаний посредством устройства, показанного на фиг. 10, раскрыт в варианте осуществления способа, представленного на фиг. 2, поэтому его описание здесь опускают.
В рассматриваемом варианте осуществления устройства построения базы знаний, то, содержат ли текстовые корпусы вторую информацию, определяют посредством определяющего модуля, вторую информацию извлекают посредством второго определяющего, извлекающего и добавляющего модуля, если определено, что она содержится в текстовых корпусах, и выполняют построение базы знаний на основе первой информации, второй информации и сущностей, соответствующих первой информации. Таким образом, улучшается процесс построения базы знаний.
На фиг. 11 схематично показано устройство построения базы знаний согласно еще одному предпочтительному варианту осуществления настоящего изобретения. Устройство, проиллюстрированное на фиг. 11, основано на устройстве с фиг. 10, причем указанный определяющий модуль 73 содержит получающий подмодуль 731, извлекающий подмодуль 732, объединяющий подмодуль 733 и вычислительный и определяющий подмодуль 734.
Указанный получающий подмодуль 731 выполнен с возможностью получения из текстовых корпусов второго набора предложений, содержащего первую информацию в соответствии с предварительно заданным шаблоном описания свойств.
Указанный извлекающий подмодуль 732 выполнен с возможностью извлечения числовой сущности в качестве второй потенциальной информации, если второй набор предложений, полученный указанным получающим подмодулем 731, содержит числовую сущность.
Указанный объединяющий подмодуль 733 выполнен с возможностью объединения сущностей, первой информации и второй потенциальной информации, извлеченной посредством извлекающего подмодуля 723, в набор триплетов.
Указанный вычислительный и определяющий подмодуль 734 выполнен с возможностью, для каждой первой информации каждой сущности в текущем наборе триплетов, объединенных указанным объединяющим подмодулем 733, вычисления числа вхождения каждой соответствующей второй потенциальной информации и определения второй потенциальной информации, число вхождения которой является наибольшим, в качестве второй информации текущей первой информации текущей сущности.
Процесс построения базы знаний посредством устройства, показанного на фиг. 11, раскрыт в варианте осуществления способа, представленного на фиг. 6, поэтому его описание здесь опускают.
В рассматриваемом варианте, связь между сущностями, первой информацией и второй информацией поясняется тем, что она представлена в виде триплетов, благодаря чему можно легко обеспечить вторую информацию первой информации, соответствующей сущности.
Что касается раскрытых выше устройств, то конкретные действия и функциональные возможности отдельных модулей и подмодулей подробно описаны со ссылкой на соответствующие способы в раскрытых выше вариантах осуществления настоящего изобретения, и поэтому не будут подробно раскрыты здесь.
На фиг. 12 схематично показано устройство 1200 построения базы знаний согласно одному из предпочтительных вариантов осуществления настоящего изобретения. Например, указанное устройство 1200 может представлять собой сервер. Указанное устройство 1200 содержит обрабатывающий компонент 1222, который дополнительно может содержать один или несколько процессоров, и ресурс памяти, представленный в виде памяти 1232, используемой для хранения инструкций, исполняемых указанным обрабатывающим компонентом 1222, например, прикладных программ. Прикладные программы, хранящиеся в памяти 1232, содержат один или несколько модулей, каждый из которых соответствует набору инструкций. Кроме того, указанный обрабатывающий компонент 1222 может быть выполнен с возможностью исполнения наборов инструкций и реализации способа построения базы знаний.
Указанное устройство 1200 может также содержать источник 1226 электропитания, выполненный с возможностью реализации управления электропитанием устройства 1200, проводные и беспроводные сетевые интерфейсы 1250, выполненные с возможностью подсоединения указанного устройства 1200 к сети, и интерфейс 1258 ввода/вывода. Указанное устройство 1200 может функционировать на основе операционных систем, хранящихся в памяти 1232, например, систем Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM и т.д.
Другие предпочтительные варианты осуществления настоящего изобретения станут очевидными специалистам в данной области техники при изучении настоящего описания и при реализации на практике раскрытых в настоящем документе технических решений. Предполагается, что данная заявка охватывает любые вариации, варианты применения и модификации настоящего описания в соответствии с основными принципами настоящего изобретения и включает в себя такие отступления от настоящего описания, которые подпадают под известную или общепринятую практику в данной области техники. Предполагается, что описание и варианты, рассмотренные исключительно в качестве примерных, в истинном объеме изложены в прилагаемой формуле изобретения.
Следует понимать, что идея изобретения не ограничена конкретной конструкцией, которая была описана выше и проиллюстрирована на прилагаемых чертежах, и что в настоящее изобретение могут быть внесены различные модификации и изменения, не выходящие за пределы объема настоящего изобретения. Предполагается, что объем настоящего изобретения ограничен только прилагаемой формулой изобретения.

Claims (63)

1. Способ построения базы знаний, содержащий следующие этапы:
Получают текстовые корпусы и определяют, содержат ли текстовые корпусы первую информацию в соответствии с предварительно заданным шаблоном описания свойств, причем указанная первая информация содержит информацию о свойстве сущностей в предварительно заданном наборе сущностей, и
извлекают первую информацию, если определено, что первая информация содержится в указанных текстовых корпусах, и выполняют построение базы знаний на основе первой информации и сущности, соответствующей указанной первой информации;
при этом предварительно заданный шаблон описания свойств содержит словари, шаблоны предложений или любую их комбинацию для определения того, содержат ли текстовые корпусы первую информацию,
причем этап, на котором определяют, содержат ли текстовые корпусы первую информацию в соответствии с предварительно заданным шаблоном описания свойств, включает:
отбор из текстовых корпусов первого набора предложений, содержащего сущности в предварительно заданном наборе сущностей, согласно алгоритму распознавания именованных сущностей,
получение первой потенциальной информации из указанного первого набора предложений согласно словарям, шаблонам предложений или их комбинации в предварительно заданном шаблоне описания свойств, причем указанная первая потенциальная информация содержит информацию о свойстве сущностей в предварительно заданном наборе сущностей, и
вычисление числа вхождения первой потенциальной информации и определение указанной первой потенциальной информации в качестве первой информации, если число вхождения превышает предварительно заданное пороговое значение.
2. Способ по п. 1, отличающийся тем, что дополнительно содержит этапы, на которых:
определяют, содержат ли текстовые корпусы вторую информацию в соответствии с предварительно заданным шаблоном описания свойств и первой информацией, причем указанная вторая информация содержит информацию о свойстве первой информации,
извлекают вторую информацию, если определено, что она содержится в текстовых корпусах, и обновляют базу знаний на основе первой информации, второй информации и сущности, соответствующей указанной первой информации.
3. Способ по п. 2, отличающийся тем, что этап, на котором определяют, содержат ли текстовые корпусы вторую информацию в соответствии с предварительно заданным шаблоном описания свойств и первой информацией, включает:
получение из текстовых корпусов второго набора предложений, содержащего первую информацию в соответствии с предварительно заданным шаблоном описания свойств,
если указанный второй набор предложений содержит числовую сущность, извлечение указанной числовой сущности в качестве второй потенциальной информации,
объединение сущности, первой информации и второй информации в набор триплетов, и,
для каждой первой информации каждой сущности в текущем наборе триплетов, вычисление числа вхождения каждой соответствующей второй потенциальной информации, и определение второй потенциальной информации, число вхождения которой является наибольшим, в качестве второй информации текущей первой информации текущей сущности.
4. Способ по любому из пп. 1-3, отличающийся тем, что предварительно заданный шаблон описания свойств содержит один или несколько из следующих шаблонов: содержание *, <содержат | содержит> <#ЧИСЛО>грамм*, *<содержится | входит в состав | содержится в большом количестве> <в | внутри>*, где «*» представляет собой знак подстановки для согласования с любой строкой, «|» представляет собой символ, обозначающий «или», <«#ЧИСЛО>» представляет собой символ для согласования с числовой строкой, а знаки «<» и «>» встречаются в паре для того, чтобы охватить множество синонимов.
5. Способ построения базы знаний, содержащий следующие этапы:
получают текстовые корпусы и определяют, содержат ли текстовые корпусы первую информацию в соответствии с предварительно заданным шаблоном описания свойств, причем указанная первая информация содержит информацию о свойстве сущностей в предварительно заданном наборе сущностей, и
извлекают первую информацию, если определено, что первая информация содержится в указанных текстовых корпусах, и выполняют построение базы знаний на основе первой информации и сущности, соответствующей указанной первой информации;
при этом предварительно заданный шаблон описания свойств содержит словари, шаблоны предложений или любую их комбинацию для определения того, содержат ли текстовые корпусы первую информацию,
причем этап, на котором определяют, содержат ли текстовые корпусы первую информацию в соответствии с предварительно заданным шаблоном описания свойств, включает:
отбор из текстовых корпусов первого набора предложений, содержащего сущности в предварительно заданном наборе сущностей, согласно алгоритму распознавания именованных сущностей,
получение совокупности первой потенциальной информации из указанного первого набора предложений согласно предварительно заданному шаблону описания свойств, причем указанная совокупность первой потенциальной информации содержит информацию о свойстве сущностей,
объединение сущностей, содержащихся в указанном первом наборе предложений, и соответствующей совокупности первой потенциальной информации в набор двухэлементных кортежей, и
вычисление числа вхождения каждой первой потенциальной информации, удаление двухэлементных кортежей, в которых имеется первая потенциальная информация с числом вхождения, меньшим предварительно заданного порогового значения, и определение элементов, содержащихся в текущем наборе двухэлементных кортежей, в качестве первой информации.
6. Устройство построения базы знаний, содержащее:
получающий и определяющий модуль, выполненный с возможностью получения текстовых корпусов и определения того, содержат ли текстовые корпусы первую информацию в соответствии с предварительно заданным шаблоном описания свойств, причем указанная первая информация содержит информацию о свойстве сущностей в предварительно заданном наборе сущностей, и
первый определяющий, извлекающий и добавляющий модуль, выполненный с возможностью извлечения первой информации, если определено, что первая информация содержится в указанных текстовых корпусах, и построения базы знаний на основе первой информации и сущности, соответствующей указанной первой информации;
при этом предварительно заданный шаблон описания свойств содержит словари, шаблоны предложений или любую их комбинацию для определения того, содержат ли текстовые корпусы первую информацию,
причем указанный получающий и определяющий модуль содержит:
отборочный подмодуль, выполненный с возможностью отбора из текстовых корпусов первого набора предложений, содержащего сущности в предварительно заданном наборе сущностей, согласно алгоритму распознавания именованных сущностей,
получающий подмодуль, выполненный с возможностью получения первой потенциальной информации из указанного первого набора предложений согласно словарям, шаблонам предложений или их комбинации в предварительно заданном шаблоне описания свойств, причем указанная первая потенциальная информация содержит информацию о свойстве сущностей в предварительно заданном наборе сущностей, и
вычислительный и определяющий подмодуль, выполненный с возможностью вычисления числа вхождения первой потенциальной информации и определения указанной первой потенциальной информации в качестве первой информации, если число вхождения превышает предварительно заданное пороговое значение.
7. Устройство по п. 6, отличающееся тем, что дополнительно содержит:
определяющий модуль, выполненный с возможностью определения того, содержат ли текстовые корпусы вторую информацию в соответствии с предварительно заданным шаблоном описания свойств и первой информацией, причем указанная вторая информация содержит информацию о свойстве первой информации, и
второй определяющий, извлекающий и добавляющий модуль, выполненный с возможностью извлечения второй информации, если определено, что она содержится в текстовых корпусах, и обновления базы знаний на основе первой информации, второй информации и сущности, соответствующей указанной первой информации.
8. Устройство по п. 7, отличающееся тем, что указанный определяющий модуль содержит:
получающий подмодуль, выполненный с возможностью получения из текстовых корпусов второго набора предложений, содержащего первую информацию в соответствии с предварительно заданным шаблоном описания свойств,
извлекающий подмодуль, выполненный с возможностью извлечения числовой сущности в качестве второй потенциальной информации, если указанный второй набор предложений содержит числовую сущность,
объединяющий подмодуль, выполненный с возможностью объединения сущности, первой информации и второй информации в набор триплетов, и
вычислительный и определяющий подмодуль, выполненный с возможностью, для каждой первой информации каждой сущности в текущем наборе триплетов, вычисления числа вхождения каждой соответствующей второй потенциальной информации, и определения второй потенциальной информации, число вхождения которой является наибольшим, в качестве второй информации текущей первой информации текущей сущности.
9. Устройство по любому из пп. 6-8, отличающееся тем, что предварительно заданный шаблон описания свойств содержит один или несколько из следующих шаблонов: содержание *, <содержат | содержит> <#ЧИСЛО> грамм *, *<содержится | входит в состав | содержится в большом количестве> <в | внутри>*, где «*» представляет собой знак подстановки для согласования с любой строкой, «|» представляет собой символ, обозначающий «или», «<#ЧИСЛО>» представляет собой символ для согласования с числовой строкой, а знаки «<» и «>» встречаются в паре для того, чтобы охватить множество синонимов.
10. Устройство построения базы знаний, содержащее:
получающий и определяющий модуль, выполненный с возможностью получения текстовых корпусов и определения того, содержат ли текстовые корпусы первую информацию в соответствии с предварительно заданным шаблоном описания свойств, причем указанная первая информация содержит информацию о свойстве сущностей в предварительно заданном наборе сущностей, и
первый определяющий, извлекающий и добавляющий модуль, выполненный с возможностью извлечения первой информации, если определено, что первая информация содержится в указанных текстовых корпусах, и построения базы знаний на основе первой информации и сущности, соответствующей указанной первой информации;
при этом предварительно заданный шаблон описания свойств содержит словари, шаблоны предложений или любую их комбинацию для определения того, содержат ли текстовые корпусы первую информацию,
причем указанный получающий и определяющий модуль содержит:
отборочный подмодуль, выполненный с возможностью отбора из текстовых корпусов первого набора предложений, содержащего сущности в предварительно заданном наборе сущностей, согласно алгоритму распознавания именованных сущностей,
получающий подмодуль, выполненный с возможностью получения совокупности первой потенциальной информации из указанного первого набора предложений согласно предварительно заданному шаблону описания свойств, причем указанная совокупность первой потенциальной информации содержит информацию о свойстве сущностей,
объединяющий подмодуль, выполненный с возможностью объединения сущностей, содержащихся в указанном первом наборе предложений, и соответствующей совокупности первой потенциальной информации в набор двухэлементных кортежей, и
вычислительный, удаляющий и определяющий подмодуль, выполненный с возможностью вычисления числа вхождения каждой первой потенциальной информации, удаления двухэлементных кортежей, в которых имеется первая потенциальная информация с числом вхождения, меньшим предварительно заданного порогового значения, и определения элементов, содержащихся в текущем наборе двухэлементных кортежей, в качестве первой информации.
11. Устройство построения базы знаний, содержащее:
процессор и
память, предназначенную для хранения инструкций, исполняемых процессором,
причем указанный процессор выполнен с возможностью:
получения текстовых корпусов и определения того, содержат ли текстовые корпусы первую информацию в соответствии с предварительно заданным шаблоном описания свойств, причем указанная первая информация содержит информацию о свойстве сущностей в предварительно заданном наборе сущностей, и
извлечения первой информации, если определено, что первая информация содержится в указанных текстовых корпусах, и построения базы знаний на основе первой информации и сущности, соответствующей указанной первой информации;
при этом предварительно заданный шаблон описания свойств содержит словари, шаблоны предложений или любую их комбинацию для определения того, содержат ли текстовые корпусы первую информацию,
и указанный процессор дополнительно выполнен с возможностью:
отбора из текстовых корпусов первого набора предложений, содержащего сущности в предварительно заданном наборе сущностей, согласно алгоритму распознавания именованных сущностей,
получения первой потенциальной информации из указанного первого набора предложений согласно словарям, шаблонам предложений или их комбинации в предварительно заданном шаблоне описания свойств, причем указанная первая потенциальная информация содержит информацию о свойстве сущностей в предварительно заданном наборе сущностей, и
вычисления числа вхождения первой потенциальной информации и определения указанной первой потенциальной информации в качестве первой информации, если число вхождения превышает предварительно заданное пороговое значение.
RU2016113502A 2015-08-20 2015-12-17 Способ и устройство построения базы знаний RU2638013C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510515887.2A CN105138631B (zh) 2015-08-20 2015-08-20 知识库的构建方法及装置
CN201510515887.2 2015-08-20
PCT/CN2015/097664 WO2017028422A1 (zh) 2015-08-20 2015-12-17 知识库的构建方法及装置

Publications (2)

Publication Number Publication Date
RU2016113502A RU2016113502A (ru) 2017-10-18
RU2638013C2 true RU2638013C2 (ru) 2017-12-08

Family

ID=54723979

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2016113502A RU2638013C2 (ru) 2015-08-20 2015-12-17 Способ и устройство построения базы знаний

Country Status (8)

Country Link
US (1) US10331648B2 (ru)
EP (1) EP3133504A3 (ru)
JP (1) JP2017532704A (ru)
KR (1) KR101757900B1 (ru)
CN (1) CN105138631B (ru)
MX (1) MX2016004590A (ru)
RU (1) RU2638013C2 (ru)
WO (1) WO2017028422A1 (ru)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138631B (zh) * 2015-08-20 2019-10-11 小米科技有限责任公司 知识库的构建方法及装置
CN107256226B (zh) * 2017-04-28 2018-10-30 北京神州泰岳软件股份有限公司 一种知识库的构建方法及装置
CN108304381B (zh) * 2018-01-25 2021-09-21 北京百度网讯科技有限公司 基于人工智能的实体建边方法、装置、设备及存储介质
CN109582799B (zh) 2018-06-29 2020-09-22 北京百度网讯科技有限公司 知识样本数据集的确定方法、装置及电子设备
CN109766444B (zh) * 2018-12-10 2021-02-23 北京百度网讯科技有限公司 知识图谱的应用数据库生成方法及其装置
US11132511B2 (en) * 2019-02-05 2021-09-28 International Business Machines Corporation System for fine-grained affective states understanding and prediction

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EA008675B1 (ru) * 2001-06-22 2007-06-29 Нервана, Инк. Система и способ поиска, управления, доставки и представления знаний
CN103186556A (zh) * 2011-12-28 2013-07-03 北京百度网讯科技有限公司 得到和搜索结构化语义知识的方法及对应装置
WO2014063118A1 (en) * 2012-10-19 2014-04-24 Apixio Inc. Systems and methods for medical information analysis with deidentification and reidentification
CN104239500A (zh) * 2014-09-10 2014-12-24 百度在线网络技术(北京)有限公司 保健食品关联知识库构建方法和装置
RU2541198C2 (ru) * 2009-05-15 2015-02-10 Конинклейке Филипс Электроникс Н.В. Системы поддержки принятия клинических решений с внешним контекстом
CN104573006A (zh) * 2015-01-08 2015-04-29 南通大学 一种公共卫生突发事件领域知识库的构建方法

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132812A (ja) * 2000-10-19 2002-05-10 Nippon Telegr & Teleph Corp <Ntt> 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
US8799776B2 (en) * 2001-07-31 2014-08-05 Invention Machine Corporation Semantic processor for recognition of whole-part relations in natural language documents
US7257530B2 (en) * 2002-02-27 2007-08-14 Hongfeng Yin Method and system of knowledge based search engine using text mining
KR100481580B1 (ko) * 2002-10-09 2005-04-08 한국전자통신연구원 문서에서 이벤트 문장을 추출하는 장치 및 그 방법
KR100533810B1 (ko) * 2003-10-16 2005-12-07 한국전자통신연구원 백과사전 질의응답 시스템의 지식베이스 반자동 구축 방법
KR100721611B1 (ko) 2005-08-10 2007-05-25 김두용 데이터베이스 시스템 구축 방법
US8504908B2 (en) * 2007-10-17 2013-08-06 ITI Scotland, Limited Computer-implemented methods displaying, in a first part, a document and in a second part, a selected index of entities identified in the document
US20090249182A1 (en) * 2008-03-31 2009-10-01 Iti Scotland Limited Named entity recognition methods and apparatus
CN101630314B (zh) * 2008-07-16 2011-12-07 中国科学院自动化研究所 一种基于领域知识的语义查询扩展方法
KR100989581B1 (ko) * 2010-04-28 2010-10-25 한국과학기술정보연구원 개체명 사전 및 마이닝 규칙이 결합된 온톨로지 스키마를 이용한 리소스 기술 프레임워크 네트워크 구축 장치 및 방법
KR20110132075A (ko) 2010-06-01 2011-12-07 금오공과대학교 산학협력단 바코드정보를 이용한 식품의 원재료 분석 시스템 및 방법
CN102033950A (zh) * 2010-12-23 2011-04-27 哈尔滨工业大学 电子产品命名实体自动识别系统的构建方法及识别方法
CN102495892A (zh) * 2011-12-09 2012-06-13 北京大学 一种网页信息抽取方法
WO2014000764A1 (en) * 2012-06-25 2014-01-03 Qatar Foundation A system and method for automatic generation of a reference utility
CN102866990B (zh) * 2012-08-20 2016-08-03 北京搜狗信息服务有限公司 一种主题对话方法和装置
WO2015084757A1 (en) * 2013-12-02 2015-06-11 Qbase, LLC Systems and methods for processing data stored in a database
US9922032B2 (en) * 2013-12-02 2018-03-20 Qbase, LLC Featured co-occurrence knowledge base from a corpus of documents
CN103631948B (zh) * 2013-12-11 2017-01-11 北京京东尚科信息技术有限公司 命名实体的识别方法
CN104850554B (zh) * 2014-02-14 2020-05-19 北京搜狗科技发展有限公司 一种搜索方法和系统
US9201930B1 (en) * 2014-05-06 2015-12-01 Snap-On Incorporated Methods and systems for providing an auto-generated repair-hint to a vehicle repair tool
CN105447609A (zh) * 2014-08-29 2016-03-30 国际商业机器公司 用于处理案例管理模型的方法、装置和系统
WO2016085409A1 (en) * 2014-11-24 2016-06-02 Agency For Science, Technology And Research A method and system for sentiment classification and emotion classification
US9898455B2 (en) * 2014-12-01 2018-02-20 Nuance Communications, Inc. Natural language understanding cache
CN105138631B (zh) * 2015-08-20 2019-10-11 小米科技有限责任公司 知识库的构建方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EA008675B1 (ru) * 2001-06-22 2007-06-29 Нервана, Инк. Система и способ поиска, управления, доставки и представления знаний
RU2541198C2 (ru) * 2009-05-15 2015-02-10 Конинклейке Филипс Электроникс Н.В. Системы поддержки принятия клинических решений с внешним контекстом
CN103186556A (zh) * 2011-12-28 2013-07-03 北京百度网讯科技有限公司 得到和搜索结构化语义知识的方法及对应装置
WO2014063118A1 (en) * 2012-10-19 2014-04-24 Apixio Inc. Systems and methods for medical information analysis with deidentification and reidentification
CN104239500A (zh) * 2014-09-10 2014-12-24 百度在线网络技术(北京)有限公司 保健食品关联知识库构建方法和装置
CN104573006A (zh) * 2015-01-08 2015-04-29 南通大学 一种公共卫生突发事件领域知识库的构建方法

Also Published As

Publication number Publication date
CN105138631B (zh) 2019-10-11
MX2016004590A (es) 2017-05-04
RU2016113502A (ru) 2017-10-18
EP3133504A3 (en) 2017-04-05
KR101757900B1 (ko) 2017-07-14
WO2017028422A1 (zh) 2017-02-23
US20170052995A1 (en) 2017-02-23
JP2017532704A (ja) 2017-11-02
CN105138631A (zh) 2015-12-09
EP3133504A2 (en) 2017-02-22
US10331648B2 (en) 2019-06-25

Similar Documents

Publication Publication Date Title
RU2638013C2 (ru) Способ и устройство построения базы знаний
US10726057B2 (en) Method and device for clarifying questions on deep question and answer
US10649990B2 (en) Linking ontologies to expand supported language
US9836457B2 (en) Machine translation method for performing translation between languages
CN110046236B (zh) 一种非结构化数据的检索方法及装置
US8452763B1 (en) Extracting and scoring class-instance pairs
US20180052823A1 (en) Hybrid Classifier for Assigning Natural Language Processing (NLP) Inputs to Domains in Real-Time
US10248715B2 (en) Media content recommendation method and apparatus
US20140207776A1 (en) Method and system for linking data sources for processing composite concepts
US9495360B2 (en) Recipe creation using text analytics
US9785704B2 (en) Extracting query dimensions from search results
US9104780B2 (en) System and method for natural language processing
US10832145B2 (en) Techniques for resolving entities in received questions
CN112860866A (zh) 语义检索方法、装置、设备以及存储介质
CN111414763A (zh) 一种针对手语计算的语义消歧方法、装置、设备及存储装置
EP2682880A1 (en) Set-expansion device, set-expansion method, program, and non-transitory storage medium
KR101651780B1 (ko) 빅 데이터 처리 기술을 이용한 연관 단어 추출 방법 및 그 시스템
US20160321241A1 (en) Probabilistic model for term co-occurrence scores
US20200152081A1 (en) Food description processing methods and apparatuses
CN117271736A (zh) 一种问答对的生成方法和系统、电子设备及存储介质
US20190324970A1 (en) Automated determination of document utility for a document corpus
JP2016177359A (ja) 検索装置及びプログラム
JP2018081394A (ja) 情報処理装置、情報処理方法、およびプログラム
CN113919424A (zh) 文本处理模型的训练、文本处理方法、装置、设备和介质
CN113569018A (zh) 问答对挖掘方法及装置