WO2022160539A1 - 一种数据处理系统及数据挖掘方法 - Google Patents

一种数据处理系统及数据挖掘方法 Download PDF

Info

Publication number
WO2022160539A1
WO2022160539A1 PCT/CN2021/097364 CN2021097364W WO2022160539A1 WO 2022160539 A1 WO2022160539 A1 WO 2022160539A1 CN 2021097364 W CN2021097364 W CN 2021097364W WO 2022160539 A1 WO2022160539 A1 WO 2022160539A1
Authority
WO
WIPO (PCT)
Prior art keywords
string
data
standard
character
characters
Prior art date
Application number
PCT/CN2021/097364
Other languages
English (en)
French (fr)
Inventor
俞晓飞
Original Assignee
浪达网络科技(浙江)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 浪达网络科技(浙江)有限公司 filed Critical 浪达网络科技(浙江)有限公司
Publication of WO2022160539A1 publication Critical patent/WO2022160539A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Definitions

  • a general purpose processor may be a microprocessor or the processor may be any conventional processor or the like.
  • the steps of the method invented in combination with the embodiments of the present invention can be directly embodied as executed by a hardware decoding processor, or executed by a combination of hardware and software modules in the decoding processor.
  • the software modules may be located in random access memory, flash memory, read-only memory, programmable read-only memory or electrically erasable programmable memory, registers and other storage media mature in the art.
  • the standard conversion module converts the data to be processed into standard string characters, specifically, to obtain the data to be processed, identify the data, and when the data can be converted into text information, convert the data into text messages, and convert the text
  • the text inside is converted into binary string characters in turn, and binary string characters are standard string characters
  • the above formulas are calculated by removing the dimension and taking its numerical value.
  • the formula is a formula obtained by collecting a large amount of data and performing software simulation to obtain the latest real situation.
  • the preset parameters in the formula are set by those skilled in the art according to the actual situation.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种数据处理系统及数据挖掘方法,属于数据处理领域,用于解决现有数据处理与挖掘系统需要挖掘数据庞杂,耗费时间长,缺乏一种关联处理的技术的问题;通过获取二进制字串符,并将二进制字串符内关键词进行提取,并将关键词标记为定义问题;与大数据平台建立数据联系,并以定义问题为关键词进行搜索,并将搜索结果标记为数据库;当不同数据库内出现数据相同情况时,将数据库所对应的定义问题标记为关联组题;对关联组题进行数据挖掘,使得本方法在数据处理过程中,可以实现关联,减少数据挖掘所需要得时间,同时数据挖掘得关键词均来自于数据处理系统,进而大大减轻了关键词标准化的时间,进而缩短挖掘时间。

Description

一种数据处理系统及数据挖掘方法 技术领域
本发明属于数据处理领域,涉及数据处理与挖掘技术,具体是一种数据处理系统及数据挖掘方法。
背景技术
数据分析指用适当的统计、分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
数据也称为观测值,是实验、测量、观察、调查等的结果。数据分析中所处理的数据分为定性数据和定量数据。只能归入某一类而不能用数值进行测度的数据称为定性数据。定性数据中表现为类别,但不区分顺序的,是定类数据,如性别、品牌等;定性数据中表现为类别,但区分顺序的,是定序数据,如学历、商品的质量等级等;
目前,随着大数据技术普及,在很多行业运营过程中,积累大量的文本和结构化数据,现在没有技术处理和挖掘长文本数据,精准预测用户行为,识别和挖掘用户的需求,提升用户体验和提高客户价值,缩短用户办理时间,但现有数据处理与挖掘系统需要挖掘数据庞杂,耗费时间长,缺乏一种关联处理的技术。
发明内容
本发明的目的在于提供一种数据处理系统及数据挖掘方法,用于解决现有数据处理与挖掘系统需要挖掘数据庞杂,耗费时间长,缺乏一种关联处理的技术 的问题。
本发明的目的可以通过以下技术方案实现:
一种数据处理系统,所述数据处理系统包括数据预处理模块、分配模块、融合模块、辅助处理模块以及主处理模块;
其中,所述数据预处理模块包括数据预处理与数据匹配处理;所述分配模块用于将数据进行分配打包派送;所述融合模块用于对数据进行融合处理;所述主处理模块用于对融合后的数据进行处理;
所述数据预处理模块包括数据预处理与数据匹配处理,具体为:
步骤一:获取需要处理的数据,并通过标准转化模块将需要处理的数据转化为标准字串符;
步骤二:将标准字串符与模块内存储的预设字符串进行对比,并得出对比值;
步骤三:当对比值大于等于95%时,获取预设字符串所对应的预设处理流程,将预设处理流程发送至辅助处理模块进行处理;
步骤四:当对比值小于95%时,将标准字串符发送至主处理模块进行处理;
其中,所述通过标准转化模块将需要处理的数据转化为标准字串符具体为,获取需要处理的数据,对数据进行识别,当数据能转化为文本信息时,将数据转化为文本信,并将文本内的文字依次转化为二进制字串符,所述二进制字串符即为标准字串符;
将标准字串符与模块内存储的预设字符串进行对比,并得出对比值,具体为,获取二进制字串符中的关键字符,并与预设字符串内关键字符进行匹配, 并选取关键词匹配成功最多的预设字符串为匹配字串符,比较匹配字串符与二进制字串符进行对比,并获得对比值;
其中,当二进制字串符字符数与匹配字串符字符数不相同时,则选取最后一个相匹配的关键词为结束词;
当结束词出现在二进制字串符内时,将结束词后续二进制字串符与预设字符串再次进行匹配,并将匹配成功的预设字符串标记为第二接尾字符串,重复操作,将后续匹配成功的预设字符串标记为第三接尾字符串、第四接尾字符串、……、第N接尾字符串,直至结束词后续二进制字串符内没有关键词与预设字符串相同时,则匹配结束;
此时将匹配字串符与匹配字串符、第三接尾字符串、第四接尾字符串以及第N接尾字符串进行相连,得到组合匹配字串符,匹配字串符内字符与二进制字串符内字符进行匹配,其中,匹配成功字符数与二进制字串符字符数的比值即为对比值。
进一步地,所述分配模块用于将对比值小于95%的标准字串符进行关键词对比,并根据对比关键词进行分配,具体为:
提取标准字串符内关键词,并与标准字串符内存储的关键词进行匹配,并将匹配结果相同的标准字串符分配至相对应的数据篮内完成分配;
其中,数据篮具体由若干个存储单元组成,其中,每个不同数据篮与不同主处理模块相连接,且每个数据篮都之与单个主处理模块相连接。
进一步地,所述数据篮与主处理模块之间还连接有融合模块;
其中,融合模块将数据篮内标准字串符进行数据融合,具体为,获取数据篮内标准字串符,并提取标准字串符内关键词,并依照关键词将不同标准字串符进 行拼接融合,具体为,获取标准字串符内关键词,并将关键词相同的标准字串符进行匹配,并将匹配成功的标准字串符进行数据融合。
进一步地,所述将关键词相同的标准字串符进行匹配,并将匹配成功的标准字串符进行数据融合具体为,获取不同标准字串符中的关键值,从而获取标准字串符的类型及其关键值;基于不同标准字串符的类型及其关键值,将每种标准字串符进行融合;
其中,所述获取不同标准字串符中的关键值,具体为:将标准字串符进行分类,并将关键值和所述类型的标准字串符关联;所述类型为一个或者多个;
将每种标准字串符进行融合,具体为:将同种类型的标准字串符进行融合,并为所述同种类型的标准字串符设置关键值;保留同种类型标准字串符中关键值较高的数据,并剔除关键值较低的数据,并为所述保留的数据设置所述较高的关键值。
进一步地,所述主处理模块用于对融合后的数据进行处理,具体为,获取融合后的标准字串符,并将标准字串符进行解码,并将解码后的标准字串符所表示数据内容进行处理,同时将处理得到的结果与所对应得标准字串符发送至辅助处理模块。
进一步地,所述将标准字串符进行解码具体为,获取标准字串符的关键值以及字符数值,根据反推关系得到输出内容。
进一步地,所述辅助处理模块将处理得到的结果与所对应得标准字串符进行存储,并提取标准字串符以及标准字串符内关键词,并将关键词进行标注,同时将处理得到的结果标注为标准字串符的预设处理流程,并进行存储;
其中,所述提取标准字串符以及标准字串符内关键词,并将关键词进行标注 时,所述关键词包括新增关键词。
进一步地,所述辅助处理模块用于将预设处理流程进行输出。
一种数据挖掘方法,所述数据挖掘方法包括以下步骤:
A1:获取二进制字串符,并将二进制字串符内关键词进行提取,并将关键词标记为定义问题;
A2:与大数据平台建立数据联系,并以定义问题为关键词进行搜索,并将搜索结果标记为数据库;
A3:当不同数据库内出现数据相同情况时,将数据库所对应的定义问题标记为关联组题;
A4:对关联组题进行数据挖掘。
进一步地,其中,当两个不同数据库出现35%数据相同时,既认定出现数据相同情况。
与现有技术相比,本发明的有益效果是:
(1)通过数据预处理模块获取需要处理的数据,并通过标准转化模块将需要处理的数据转化为标准字串符,将标准字串符与模块内存储的预设字符串进行对比,并得出对比值,将标准字串符与模块内存储的预设字符串进行对比,并得出对比值,将标准字串符与模块内存储的预设字符串进行对比,并得出对比值,使得数据在预处理时,便会智能识别需要匹配程度高的预设流程进行处理,减轻复杂问题处理的流程,同时通过当结束词出现在二进制字串符内时,将结束词后续二进制字串符与预设字符串再次进行匹配,并将匹配成功的预设字符串标记为第二接尾字符串,重复操作,将后续匹配成功的预设字符串标记为第三接尾字符串、第四接尾字符串、……、第N接尾字符串,直至结束 词后续二进制字串符内没有关键词与预设字符串相同时,则匹配结束,使得本发明可以对需要处理的问题进行分隔与拼接,从而使得组合式问题也可以被筛选,从而使得预处理更加智能;
(2)通过辅助处理模块将处理得到的结果与所对应得标准字串符进行存储,并提取标准字串符以及标准字串符内关键词,并将关键词进行标注,同时将处理得到的结果标注为标准字串符的预设处理流程,并进行存储,使得非预设处理流程被处理流程进行记录,使得本发明具有一定的智能学习能力,进而在不断积累中,逐步实现完全智能化;
(3)通过获取二进制字串符,并将二进制字串符内关键词进行提取,并将关键词标记为定义问题;与大数据平台建立数据联系,并以定义问题为关键词进行搜索,并将搜索结果标记为数据库;当不同数据库内出现数据相同情况时,将数据库所对应的定义问题标记为关联组题;对关联组题进行数据挖掘,使得本发明在数据处理过程中,可以实现关联,减少数据挖掘所需要得时间,同时数据挖掘得关键词均来自于数据处理系统,进而大大减轻了关键词标准化的时间,进而缩短挖掘时间;
(4)同时该数据分析挖掘方法,通过通过大数据检索对各类数据的抽象组织,确定数据库需管辖的范围、数据的组织形式等直至转化成现实的数据库,通过建立众多数据库,并将数据库与关键词进行映射,分析建立数据库实体以及各实体之间关系,然后通过数据整合把在不同数据源的数据收集、整理、清洗,转换后加载存储,便于人们对分析结果的探究以及在使用时无需重新建立数据库,节省挖掘时间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明原理框图;
图2为本发明方法框图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
因此,在下述附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。
如图1所示,一种数据处理系统,数据处理系统包括数据预处理模块、分配模块、融合模块、辅助处理模块以及主处理模块;
其中,数据预处理模块包括数据预处理与数据匹配处理;分配模块用于将数据进行分配打包派送;融合模块用于对数据进行融合处理;主处理模块用于对融合后的数据进行处理;辅助处理模块用于将预设处理流程进行输出。
在本发明具体实施中,上述模块均以处理器为载体,其中,处理器为一种集成电路芯片,具有信号的处理能力。在实现过程中,数据处理与数据挖掘的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的 处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processing,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施方式中的发明的各方法以及步骤。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施方式所发明的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。
具体的在本发明具体实施时,数据预处理模块包括数据预处理与数据匹配处理,具体为,获取需要处理的数据,并通过标准转化模块将需要处理的数据转化为标准字串符;将标准字串符与模块内存储的预设字符串进行对比,并得出对比值;当对比值大于等于95%时,获取预设字符串所对应的预设处理流程,将预设处理流程发送至辅助处理模块进行处理;
辅助处理模块将处理得到的结果与所对应得标准字串符进行存储,并提取标准字串符以及标准字串符内关键词,并将关键词进行标注,同时将处理得到的结果标注为标准字串符的预设处理流程,并进行存储;
具体的,提取标准字串符以及标准字串符内关键词,并将关键词进行标注时,关键词包括新增关键词;
需要注意的是,上述关键词选用需要满足如下要求,对数据进行分析,找 出中心内容和主题概念的词汇与重要词语;参考有关标准中的词表中的对应规范的词汇,尽量选取规范词汇作为重要的词;剔除意义不明确、无专指性、无检索价值的词,删减同义词和近义词;冠词、代词、介词、连词、感叹词和某些动词(联系动词、情感动词)等不用;理论、报告、实验、学习、方法、问题、对策、途径、特点、目的、概念、发展等没有专指性概念性词汇,评价词,非公知公用的词不用;数学式和化学式可选取为重要的词;材料、设备、方法的专业代码、人名、地名可以作为关键词;当对比值小于95%时,将标准字串符发送至主处理模块进行处理;
其中,通过标准转化模块将需要处理的数据转化为标准字串符具体为,获取需要处理的数据,对数据进行识别,当数据能转化为文本信息时,将数据转化为文本信,并将文本内的文字依次转化为二进制字串符,二进制字串符即为标准字串符;
在本发明具体实施时,依次转化为二进制字串符具体为,获取转化文字位于现代汉语常用字表内的位数,将位数转化为二进制,如汉字“一”的二进制位数为0001;
将标准字串符与模块内存储的预设字符串进行对比,并得出对比值,具体为,获取二进制字串符中的关键字符,并与预设字符串内关键字符进行匹配,并选取关键词匹配成功最多的预设字符串为匹配字串符,比较匹配字串符与二进制字串符进行对比,并获得对比值;
其中,当二进制字串符字符数与匹配字串符字符数不相同时,则选取最后一个相匹配的关键词为结束词;
当结束词出现在二进制字串符内时,将结束词后续二进制字串符与预设字 符串再次进行匹配,并将匹配成功的预设字符串标记为第二接尾字符串,重复操作,将后续匹配成功的预设字符串标记为第三接尾字符串、第四接尾字符串、……、第N接尾字符串,直至结束词后续二进制字串符内没有关键词与预设字符串相同时,则匹配结束;
此时将匹配字串符与匹配字串符、第三接尾字符串、第四接尾字符串以及第N接尾字符串进行相连,得到组合匹配字串符,匹配字串符内字符与二进制字串符内字符进行匹配,其中,匹配成功字符数与二进制字串符字符数的比值即为对比值。
在进一步地,分配模块用于将对比值小于95%的标准字串符进行关键词对比,并根据对比关键词进行分配,具体的,提取标准字串符内关键词,并与标准字串符内存储的关键词进行匹配,并将匹配结果相同的标准字串符分配至相对应的数据篮内完成分配,更进一步,数据篮具体由若干个存储单元组成,其中,每个不同数据篮与不同主处理模块相连接,且每个数据篮都之与单个主处理模块相连接。
更进一步的,数据篮与主处理模块之间还连接有融合模块;融合模块将数据篮内标准字串符进行数据融合,具体的,获取数据篮内标准字串符,并提取标准字串符内关键词,并依照关键词将不同标准字串符进行拼接融合,具体为,获取标准字串符内关键词,并将关键词相同的标准字串符进行匹配,并将匹配成功的标准字串符进行数据融合;
更进一步的,获取不同标准字串符中的关键值,从而获取标准字串符的类型及其关键值;基于不同标准字串符的类型及其关键值,将每种标准字串符进行融合;
其中,获取不同标准字串符中的关键值,具体为:将标准字串符进行分类,并将关键值和类型相同的标准字串符关联;类型为一个或者多个;
在本发明具体实施时,类型相同指合同标的物本身的性质和特点一致。比如都是支付金钱,或者交付同样的种类物。品质相同,指标的物的质量、规格、等级无差别,比如都是一级天津大米。债务种类品质不相同,原则上不允许抵销。如果给付的种类、品质不同,一是债务各有其不同的经济目的,抵销很可能使之落空,二是债务互异其经济价值,抵销难以公平。
将每种标准字串符进行融合,具体为:将同种类型的标准字串符进行融合,并为同种类型的标准字串符设置关键值;保留同种类型标准字串符中关键值较高的数据,并剔除关键值较低的数据,并为保留的数据设置较高的关键值。
更进一步的,主处理模块用于对融合后的数据进行处理,具体的,获取融合后的标准字串符,并将标准字串符进行解码,并将解码后的标准字串符所表示数据内容进行处理,同时将处理得到的结果与所对应得标准字串符发送至辅助处理模块。
在本发明具体实施中,获取标准字串符的关键值以及字符数值,根据反推关系得到输出内容;
其中,本发明在具体实施时,各模块之间进行数据连接可以包括有线通信组件或无线通信组件;其中,有线通信组件可以为传输线、USB接口;无线通信组件可以包括蓝牙模块、wifi模块、3G/4G/5G模块等。
如图2所示,在本发明中还涉及到一种数据挖掘方法,具体的,获取二进制字串符,并将二进制字串符内关键词进行提取,并将关键词标记为定义问题;与大数据平台建立数据联系,并以定义问题为关键词进行搜索,并将搜索结果标记 为数据库;当不同数据库内出现数据相同情况时,将数据库所对应的定义问题标记为关联组题;对关联组题进行数据挖掘。
其中,当两个不同数据库出现35%数据相同时,既认定出现数据相同情况;
上述方法中,设有存储器,即机器可读存储介质,用于存储一条或多条计算机指令,一条或多条计算机指令被处理器执行,以实现上述车况检测方法的步骤,在此不进行限制,其中,存储器可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。其中,总线可以是ISA总线、PCI总线或EISA总线等,总线可以分为地址总线、数据总线、控制总线等。
上述公式均是去量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式,公式中的预设参数由本领域的技术人员根据实际情况进行设置。
在本发明所提供的实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式;所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方法的目的。
另对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节, 而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方法而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方法进行修改或等同替换,而不脱离本发明技术方法的精神和范围。

Claims (10)

  1. 一种数据处理系统,其特征在于,所述数据处理系统包括数据预处理模块、分配模块、融合模块、辅助处理模块以及主处理模块;
    其中,所述数据预处理模块包括数据预处理与数据匹配处理;所述分配模块用于将数据进行分配打包派送;所述融合模块用于对数据进行融合处理;所述主处理模块用于对融合后的数据进行处理;
    所述数据预处理模块包括数据预处理与数据匹配处理,具体为:
    步骤一:获取需要处理的数据,并通过标准转化模块将需要处理的数据转化为标准字串符;
    步骤二:将标准字串符与模块内存储的预设字符串进行对比,并得出对比值;
    步骤三:当对比值大于等于95%时,获取预设字符串所对应的预设处理流程,将预设处理流程发送至辅助处理模块进行处理;
    步骤四:当对比值小于95%时,将标准字串符发送至主处理模块进行处理;
    其中,所述通过标准转化模块将需要处理的数据转化为标准字串符具体为,获取需要处理的数据,对数据进行识别,当数据能转化为文本信息时,将数据转化为文本信,并将文本内的文字依次转化为二进制字串符,所述二进制字串符即为标准字串符;
    将标准字串符与模块内存储的预设字符串进行对比,并得出对比值,具体为,获取二进制字串符中的关键字符,并与预设字符串内关键字符进行匹配,并选取关键词匹配成功最多的预设字符串为匹配字串符,比较匹配字串符与二 进制字串符进行对比,并获得对比值;
    其中,当二进制字串符字符数与匹配字串符字符数不相同时,则选取最后一个相匹配的关键词为结束词;
    当结束词出现在二进制字串符内时,将结束词后续二进制字串符与预设字符串再次进行匹配,并将匹配成功的预设字符串标记为第二接尾字符串,重复操作,将后续匹配成功的预设字符串标记为第三接尾字符串、第四接尾字符串、……、第N接尾字符串,直至结束词后续二进制字串符内没有关键词与预设字符串相同时,则匹配结束;
    此时将匹配字串符与匹配字串符、第三接尾字符串、第四接尾字符串以及第N接尾字符串进行相连,得到组合匹配字串符,匹配字串符内字符与二进制字串符内字符进行匹配,其中,匹配成功字符数与二进制字串符字符数的比值即为对比值。
  2. 根据权利要求1所述的一种数据处理系统,其特征在于,所述分配模块用于将对比值小于95%的标准字串符进行关键词对比,并根据对比关键词进行分配,具体为:
    提取标准字串符内关键词,并与标准字串符内存储的关键词进行匹配,并将匹配结果相同的标准字串符分配至相对应的数据篮内完成分配;
    其中,数据篮具体由若干个存储单元组成,其中,每个不同数据篮与不同主处理模块相连接,且每个数据篮都之与单个主处理模块相连接。
  3. 根据权利要求2所述的一种数据处理系统,其特征在于,所述数据篮与主处理模块之间还连接有融合模块;
    其中,融合模块将数据篮内标准字串符进行数据融合,具体为,获取数据篮 内标准字串符,并提取标准字串符内关键词,并依照关键词将不同标准字串符进行拼接融合,具体为,获取标准字串符内关键词,并将关键词相同的标准字串符进行匹配,并将匹配成功的标准字串符进行数据融合。
  4. 根据权利要求3所述的一种数据处理系统,其特征在于,所述将关键词相同的标准字串符进行匹配,并将匹配成功的标准字串符进行数据融合具体为,获取不同标准字串符中的关键值,从而获取标准字串符的类型及其关键值;基于不同标准字串符的类型及其关键值,将每种标准字串符进行融合;
    其中,所述获取不同标准字串符中的关键值,具体为:将标准字串符进行分类,并将关键值和所述类型的标准字串符关联;所述类型为一个或者多个;
    将每种标准字串符进行融合,具体为:将同种类型的标准字串符进行融合,并为所述同种类型的标准字串符设置关键值;保留同种类型标准字串符中关键值较高的数据,并剔除关键值较低的数据,并为所述保留的数据设置所述较高的关键值。
  5. 根据权利要求4所述的一种数据处理系统,其特征在于,所述主处理模块用于对融合后的数据进行处理,具体为,获取融合后的标准字串符,并将标准字串符进行解码,并将解码后的标准字串符所表示数据内容进行处理,同时将处理得到的结果与所对应得标准字串符发送至辅助处理模块。
  6. 根据权利要求5所述的一种数据处理系统,其特征在于,所述将标准字串符进行解码具体为,获取标准字串符的关键值以及字符数值,根据反推关系得到输出内容。
  7. 根据权利要求6所述的一种数据处理系统,其特征在于,所述辅助处理模块将处理得到的结果与所对应得标准字串符进行存储,并提取标准字串符以 及标准字串符内关键词,并将关键词进行标注,同时将处理得到的结果标注为标准字串符的预设处理流程,并进行存储;
    其中,所述提取标准字串符以及标准字串符内关键词,并将关键词进行标注时,所述关键词包括新增关键词。
  8. 根据权利要求7所述的一种数据处理系统及数据挖掘方法,其特征在于,所述辅助处理模块用于将预设处理流程进行输出。
  9. 一种数据挖掘方法,其特征在于,所述数据挖掘方法包括以下步骤:
    A1:获取二进制字串符,并将二进制字串符内关键词进行提取,并将关键词标记为定义问题;
    A2:与大数据平台建立数据联系,并以定义问题为关键词进行搜索,并将搜索结果标记为数据库;
    A3:当不同数据库内出现数据相同情况时,将数据库所对应的定义问题标记为关联组题;
    A4:对关联组题进行数据挖掘。
  10. 根据权利要求9所述的一种数据挖掘方法,其特征在于,其中,当两个不同数据库出现35%数据相同时,既认定出现数据相同情况。
PCT/CN2021/097364 2021-01-26 2021-05-31 一种数据处理系统及数据挖掘方法 WO2022160539A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110101937.8A CN112765238A (zh) 2021-01-26 2021-01-26 一种数据处理系统及数据挖掘方法
CN202110101937.8 2021-01-26

Publications (1)

Publication Number Publication Date
WO2022160539A1 true WO2022160539A1 (zh) 2022-08-04

Family

ID=75707471

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/097364 WO2022160539A1 (zh) 2021-01-26 2021-05-31 一种数据处理系统及数据挖掘方法

Country Status (2)

Country Link
CN (1) CN112765238A (zh)
WO (1) WO2022160539A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765238A (zh) * 2021-01-26 2021-05-07 浪达网络科技(浙江)有限公司 一种数据处理系统及数据挖掘方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101989315A (zh) * 2009-08-04 2011-03-23 英业达股份有限公司 问题信息分配回复系统及其方法
CN106682136A (zh) * 2016-12-19 2017-05-17 谭红春 一种基于数据挖掘的中医医学文献分类及存储方法
CN108877951A (zh) * 2018-05-24 2018-11-23 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 一种放疗结构命名标准化方法、装置、设备及介质
CN112015874A (zh) * 2020-07-30 2020-12-01 上海松鼠课堂人工智能科技有限公司 学生心理健康陪伴对话系统
CN112765238A (zh) * 2021-01-26 2021-05-07 浪达网络科技(浙江)有限公司 一种数据处理系统及数据挖掘方法
CN112800112A (zh) * 2021-01-28 2021-05-14 温州大学 一种数据处理系统及数据挖掘方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101989315A (zh) * 2009-08-04 2011-03-23 英业达股份有限公司 问题信息分配回复系统及其方法
CN106682136A (zh) * 2016-12-19 2017-05-17 谭红春 一种基于数据挖掘的中医医学文献分类及存储方法
CN108877951A (zh) * 2018-05-24 2018-11-23 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 一种放疗结构命名标准化方法、装置、设备及介质
CN112015874A (zh) * 2020-07-30 2020-12-01 上海松鼠课堂人工智能科技有限公司 学生心理健康陪伴对话系统
CN112765238A (zh) * 2021-01-26 2021-05-07 浪达网络科技(浙江)有限公司 一种数据处理系统及数据挖掘方法
CN112800112A (zh) * 2021-01-28 2021-05-14 温州大学 一种数据处理系统及数据挖掘方法

Also Published As

Publication number Publication date
CN112765238A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
WO2021017679A1 (zh) 地址信息解析方法、装置、系统及数据获取方法
CN107392655B (zh) 优惠券推送方法、系统、存储介质、电子设备及分流方法
WO2022134794A1 (zh) 新闻事件的舆情处理方法及装置、存储介质、计算机设备
CN109492103B (zh) 标签信息获取方法、装置、电子设备及计算机可读介质
US11216896B2 (en) Identification of legal concepts in legal documents
CN111259160B (zh) 知识图谱构建方法、装置、设备及存储介质
CN112015721A (zh) 一种基于大数据的电商平台存储数据库的优化方法
WO2019200705A1 (zh) 自动生成完形填空试题的方法以及装置
CN112163553B (zh) 物料价格核算方法、装置、存储介质和计算机设备
CN109299227B (zh) 基于语音识别的信息查询方法和装置
CN108596637B (zh) 一种电商服务问题自动发现系统
CN110750978A (zh) 情感倾向分析方法、装置、电子设备及存储介质
WO2022160539A1 (zh) 一种数据处理系统及数据挖掘方法
CN116109373A (zh) 金融产品的推荐方法、装置、电子设备和介质
CN112084448A (zh) 相似信息处理方法以及装置
CN111581197B (zh) 对数据集中的数据表进行抽样和校验的方法及装置
CN114036921A (zh) 一种政策信息匹配方法和装置
CN112800112A (zh) 一种数据处理系统及数据挖掘方法
CN110532374B (zh) 保险信息的处理方法及装置
CN110888977B (zh) 文本分类方法、装置、计算机设备和存储介质
CN112685374A (zh) 日志分类方法、装置及电子设备
WO2022206413A1 (zh) 标注数据确定方法、装置、可读介质及电子设备
KR20210001649A (ko) 기업 부실 예측 프로그램
CN115640603A (zh) 隐私敏感数据识别模型构建及识别方法、装置及存储介质
CN115470279A (zh) 基于企业数据的数源转换方法、装置、设备及介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21922137

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21922137

Country of ref document: EP

Kind code of ref document: A1