WO2024078141A1

WO2024078141A1 - 主题文献检索预测方法

Info

Publication number: WO2024078141A1
Application number: PCT/CN2023/113965
Authority: WO
Inventors: 郑志军
Original assignee: 华北理工大学
Priority date: 2023-05-12
Filing date: 2023-08-21
Publication date: 2024-04-18
Also published as: ZA202308509B; CN116340468A

Abstract

本发明公开一种主题文献检索预测方法，属于数据分析预测领域，构建主题资源数据库，对文献的数字化资源构建主题检索词库；每次检索将检索数据存入文件，对文件中检索数据进行搜索匹配确定检索频率，构建检索信息知识图谱，并关联其他用户检索历史数据，完善知识图谱；最后由知识图谱确定检索策略，预测检索文献并排序；用户在浏览检索结果时，记录并关联用户浏览和下载的文献数据，对数据进行分析，确立检索策略和预测文献之间的关联程度；按照检索策略和预测文献之间的关联程度预测其他用户的检索结果，通过对检索文献进行预测排序输出，提升用户检索体验。

Description

主题文献检索预测方法

技术领域

本发明涉及数据分析预测领域，具体涉及一种主题文献检索预测方法。

背景技术

兰州大学魏清华等研究指出，中国高校人文社会科学文献中心初步建成了一批能够完整揭示特藏文献的数据库平台，但“数字化后的资源往往存储于特定且独立的文献管理系统中，仅提供简单的文献检索与复印扫描服务”，今后仍需在多维度精细化的元数据加工、丰富多样的平台功能开发等方面加强建设。大连工业大学韩冰对42家“双一流”高校图书馆自建特色数据库建设情况进行调研，针对普遍存在的数据库建设不均衡，建库平台标准不一、功能单一，对外开放程度不高，建设主体单一，建设与服务可持续性不足等问题提出了发展建议。南京大学信息管理学院何小月等对中美共20所高校图书馆的274个自建数据库进行查找与浏览，应借鉴美国高校经验，寻求更多元的外部合作，重视提升用户使用体验。

技术问题

针对背景技术现状，本发明提出一种主题文献检索预测方法，用以在文献检索中提升用户使用体验。

技术解决方案

本发明采用以下的技术方案：主题文献检索预测方法，包括以下步骤：

步骤一：构建主题资源数据库，获取文献数字化资源；把纸质文献通过扫描设备进行扫描，获得文献的数字化资源；并对文献的数字化资源构建主题检索词库；

步骤二：每次检索将检索数据存入文件，对文件中检索数据进行搜索匹配确定检索频率；根据检索频率构建检索信息知识图谱，并关联其他用户检索历史数据，完善知识图谱；最后由知识图谱确定检索策略，预测检索文献并排序；

步骤三：用户行为分析：用户在浏览检索结果时，记录并关联用户浏览和下载的文献数据，对数据进行分析确立步骤二检索策略和预测文献之间的关联程度；

步骤四：按照检索策略和预测文献之间的关联程度预测其他用户的检索结果。

进一步的所述步骤一中主题检索词库的构建，对数字资源进行词频统计，根据词频统计结果确定主题检索词库，一篇文献构建一个词库。

进一步的所述步骤三中用户浏览和下载的文献数据分别设置不同的权值，下载权值高于浏览权值。

有益效果

本发明通过把检索关键词和历史检索数据以及其他用户检索数据进行分析形成检索策略，确定检索策略和预测文献之间的关联程度，对检索文献进行预测排序输出，提升用户检索体验。

本发明的实施方式

主题检索词库的构建，对数字资源进行词频统计，词频统计分析是对文章中重要词汇出现的次数进行统计与分析，是文本挖掘的重要手段，这种技术无需担心新词，新词只要有使用量，就可以被统计出来，例如利用工具“糖果云”进行文献的词频统计，对统计结果进行筛选，剔除掉无意义的词汇，把筛选后的词汇确定为主题检索词库，一篇文献构建一个词库。

例如，输入红楼梦文献，词频统计排序输出：宝玉4004，笑道2454，什么1834，凤姐1743，了一1715，贾母1690，也不1451，黛玉1379，我们1226，那里1178，袭人1156，姑娘1136，去了1096，宝钗1089，王夫人1080，不知1080.....剔除代词，介词，口语等与主题无意的词语，构建文献红楼梦对应词库｛宝玉，凤姐，贾母，黛玉，袭人，姑娘，宝钗，王夫人......｝。

如检索一篇关于凤姐和黛玉的文献，此文献为红楼梦中的凤姐而非网红凤姐，检索时例如输入关键词凤姐、黛玉，将检索数据“凤姐”、“黛玉”存入数据库文件A，检索文件A看是否有“凤姐”、“黛玉”关键词，有“凤姐”，那么“凤姐”频率加1，没有则直接存储关键词“凤姐”且频率设为1；有“黛玉”，那么“黛玉”频率加1，没有则直接存储关键词“黛玉”且频率设为1。根据文件A中“凤姐”、“黛玉”的频率确定知识图谱：凤姐->黛玉，同时体现频率高低，例如：凤姐->黛玉代表检索相关联的两个关键字，并且在文件A中凤姐频率高于黛玉频率；之后本次构建的知识图谱凤姐->黛玉再和其他用户检索历史数据进行关联比较，其他用户中曾经有检索：凤姐->罗*凤；凤姐->黛玉->红楼梦；凤姐等信息，本次检索确定的知识图谱凤姐->黛玉对比上述历史数据后，（因为存在相似记录凤姐->黛玉->红楼梦，此记录与凤姐->黛玉前导部分相同，以此为依据）修改本次知识图谱为凤姐->黛玉->红楼梦，以此确定最终检索策略，按照历史检索凤姐->黛玉->红楼梦的检索结果预测输出本次检索的文献并排序。如果上述知识图谱凤姐->黛玉和历史数据比较中没有相似数据则把本次确定的知识图谱凤姐->黛玉以记录形式存入文件A中，输出本次检索的文献。

用户在浏览文献的时候，记录行为数据。假设，步骤二中检测出相关文献10篇，命名为文献1-文献10，用户在浏览这10篇文献时候，下载了文献2，打开了文献3,5，其他无操作，此时把文献2的权值设置为高，文献3,5的权值设置为中，其他7篇文献权值设置为低，将排序后的文献ID标识号（文献2,3,5的ID标识按顺序存储，本例中只浏览了文献2,3,5，不必存其他文献ID）作为数据存入文件A并和步骤二中确立的相应知识图谱处于同一记录，以此确立步骤二检索策略和预测文献之间的关联程度。

步骤四：按照检索策略和预测文献之间的关联程度预测其他用户的检索结果。把本次检索的文献权值和检索策略关联起来，作为下次检索的预测标准。即下次其他用户检索策略为凤姐->黛玉->红楼梦的输出结果预测顺序为文献2,3,5......可以直接在数据文件A中按顺序找到数据文献2,3,5的文献ID标识号，此顺序即是文献权值的顺序。

工业实用性

本发明在信息检索领域具备实用价值。

Claims

主题文献检索预测方法，其特征在于，包括以下步骤：

步骤一：构建主题资源数据库，获取文献数字化资源；把纸质文献通过扫描设备进行扫描，获得文献的数字化资源；并对文献的数字化资源构建主题检索词库；所述主题检索词库的构建方法为：对数字资源进行词频统计，根据词频统计结果确定主题检索词库，一篇文献构建一个词库；

步骤二：每次检索将检索数据存入文件，对文件中检索数据进行搜索匹配确定检索频率；根据检索频率构建检索信息知识图谱，同时体现频率高低，并关联其他用户检索历史数据，完善知识图谱；最后由知识图谱确定检索策略，预测检索文献并排序；

步骤三：用户行为分析：用户在浏览检索结果时，记录并关联用户浏览和下载的文献数据，对数据进行分析，确立步骤二检索策略和预测文献之间的关联程度；步骤四：按照检索策略和预测文献之间的关联程度预测其他用户的检索结果。
根据权利要求 1 所述的主题文献检索预测方法，其特征在于，所述步骤三中用户浏览和下载的文献数据分别设置不同的权值，下载权值高于浏览权值。