WO2020199482A1 - 大样本研报信息提取方法、装置、设备及存储介质 - Google Patents

大样本研报信息提取方法、装置、设备及存储介质 Download PDF

Info

Publication number
WO2020199482A1
WO2020199482A1 PCT/CN2019/103230 CN2019103230W WO2020199482A1 WO 2020199482 A1 WO2020199482 A1 WO 2020199482A1 CN 2019103230 W CN2019103230 W CN 2019103230W WO 2020199482 A1 WO2020199482 A1 WO 2020199482A1
Authority
WO
WIPO (PCT)
Prior art keywords
report information
research report
text
word
index
Prior art date
Application number
PCT/CN2019/103230
Other languages
English (en)
French (fr)
Inventor
李海疆
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2020199482A1 publication Critical patent/WO2020199482A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Definitions

  • the embodiments of the present application relate to the technical field of financial data processing, and in particular, to a method, device, equipment, and storage medium for extracting large sample research report information.
  • Research report information is referred to as research report. In the financial industry, it refers to the analysis of the operating conditions and profitability of some listed companies based on independent and objective positions.
  • this application provides a method, device, computer equipment, and computer-readable storage medium for extracting large-sample research report information, so as to realize a large amount of research report information through a visual relationship network combined with keywords. Screen to more efficiently screen out more valuable research report information.
  • an embodiment of the present application provides a method for extracting large-sample research report information, and the method includes:
  • this application also provides a large sample research report information extraction device, which includes:
  • the conversion module is used to perform text conversion on the research report information to obtain table data, and the table data is stored in plain text;
  • the word segmentation module is used to perform statistics on the table data and output the word frequency of each word in the table data;
  • the statistics module is used to perform statistics on the research report information, obtain and rank the similarity index between each research report information and the rest of the research report information;
  • the drawing module is used to draw the relationship network of the research report information by using the digital number of the research report information as a node and the obtained similarity index as a branch.
  • the present application also provides a computer device, including a memory, a processor, and a computer program stored in the memory and running on the processor, and the processor implements the following steps when the processor executes the computer program:
  • this application also provides a computer-readable storage medium on which a computer program is stored, and when the computer program is executed by a processor, the following steps are implemented:
  • This application uses Zipf's law and the 28th rule to obtain an index of similarity in the context of research reports and draws a network of research reports information. According to the relationship network, most of the more important research reports with similar texts can be screened out. This makes it possible to filter out more valuable research report information more efficiently. Through keywords and the node density of the relationship network, the focus of the capital market's concerns reflected in a transaction time interval can also be obtained.
  • Fig. 1 is a schematic diagram showing the basic flow of a method for extracting large-sample research report information according to an exemplary embodiment.
  • Fig. 2 is a schematic diagram showing the length of branches in a relational network according to an exemplary embodiment.
  • Fig. 3 is a schematic diagram showing a relationship network according to an exemplary embodiment.
  • Fig. 4 is a schematic block diagram of a device for extracting large-sample research report information according to an exemplary embodiment.
  • Fig. 5 is a block diagram showing a computer device for implementing a method according to an exemplary embodiment.
  • This application relates to a large sample research report information extraction method, device, computer equipment and computer readable storage medium, which are mainly used in scenarios where the financial industry performs specific technical processing requirements for research report information.
  • the basic idea is: Based on Zipf's law, the number of times a word appears is inversely proportional to its ranking in the frequency table, and the twenty-eight rule, the research report corresponding to the information reflected by the top 20% of the word frequency ranking in the research information should occupy The important 80% of the research report information, on this basis, the research report’s textual similarity index is calculated and the relationship network of the research report information is drawn.
  • the relationship network most of the more important and the more similar textual meanings can be filtered
  • the research report of the relationship network can more conveniently screen out more valuable research report information, and at the same time, the focus of the capital market can be drawn based on the keywords in the relationship network.
  • This embodiment can be applied to the case of a smart terminal with a central processing module for large sample research report information extraction.
  • the method can be executed by the central processing module, where the central processing module can be implemented by software and/or hardware. It can be implemented and generally integrated in a smart terminal.
  • Figure 1 it is a schematic diagram of the basic flow of the method for extracting information from a large sample research report of this application. The method specifically includes the following steps:
  • step 110 text conversion is performed on the research report information, and the table data is stored in plain text after the conversion;
  • the research report information is generally in PDF format, and the textual information in PDF format cannot generally be processed directly. At this time, the research report information needs to be converted. With the help of existing software such as smallpdf, the research report in PDF format can be used. The report information is converted into word format, and then the word file is saved as txt format and only the text is retained.
  • the output result is a file in CSV format.
  • the CSV format is to store tabular data such as text and numbers in plain text.
  • the CSV format is composed of character sequences. Rather than binary data that needs to be interpreted.
  • step 120 perform statistics on the table data, and output the word frequency of each word in the table data
  • the statistical result is a list that includes all the words in the research report and the corresponding number of occurrences. Then the word frequency result is converted into a percentage form, which can be obtained by the following formula 1:
  • Segmentation result list consider the text of ⁇ X 1, X 2, ... , X N ⁇ , the corresponding word frequency list is ⁇ Y 1, Y 2, ... , Y N ⁇ , Y i is the number of words X i appears in the text ;
  • step 130 perform statistics on the research report information, obtain and sort the similarity index between each research report information and the rest of the research report information;
  • This step is the step of calculating the similarity index of textual meaning.
  • the similarity index of textual meaning refers to the similarity of textual meaning between different research report information, which can reflect the similarity of different research report information. , which can be obtained by the following formula 2:
  • the word segmentation result list of Text 1 is The word segmentation result list of text 2 is Respectively arrange A 1 and A 2 according to their corresponding word frequency percentages from largest to smallest, and the results after the arrangement are divided into A′ 1 and A′ 2 , The corresponding word frequency percentage lists are with
  • step 140 the digital number of the research report information is used as a node, and the obtained similarity index is used as a branch to draw the relationship network of the research report information.
  • This step is a drawing research step.
  • the data numbers correspond to the research report information one by one and are independent and unique.
  • Nodes numbered in the relationship network the branch between two nodes in the relationship network is the index size of the similarity of the context.
  • the length of the branch is represented by the reciprocal of the index value. The closer the context, the shorter the branch. It also means that the two research reports are similar in information The greater the degree.
  • the length of the branch between text 1 and text 2 is represented as branch 1
  • the length of the branch between text 1 and text 3 is represented as branch 2
  • the branch The length of 2 is greater than branch 1, so the textual meaning between text 1 and text 2 in Figure 2 is more similar than that between text 1 and text 3.
  • the method of this application based on Zipf's law and the 28th rule, performs text conversion, word segmentation, word frequency statistics, textual similarity calculation, and relationship network drawing, etc., and finally finds that it can reflect the importance of word frequency and text According to the research report network of the similarity degree index, most of the more important research reports with similar texts can be screened out according to the research report network, which greatly improves the reading efficiency.
  • Figure 4 is a schematic structural diagram of a large-sample research report information extraction device provided by an embodiment of the application.
  • the device can be implemented by software and/or hardware, and is generally integrated in a smart terminal. achieve.
  • this embodiment can provide a large-sample research report information extraction device based on the foregoing embodiment, which mainly includes a conversion module 410, a word segmentation module 420, a statistics module 430, and a drawing module 440.
  • the conversion module 410 is configured to perform text conversion on the research report information to obtain table data, and the table data is stored in a plain text form;
  • the word segmentation module 420 is used to perform statistics on the table data and output the word frequency of each word in the table data;
  • the statistics module 430 is used to perform statistics on the research report information, obtain and rank the similarity index between each research report information and the rest of the research report information;
  • the drawing module 440 is configured to use the digital number of the research report information as a node, and the obtained similarity index as a branch to draw the relationship network of the research report information.
  • the word segmentation module is further used for:
  • a list segmentation result text is ⁇ X 1, X 2, ... , X N ⁇
  • the corresponding word frequency list is ⁇ Y 1, Y 2, ... , Y N ⁇
  • Y i is the number of words X i appears in the text ;
  • the statistics module includes at least Text 1 and Text 2, and the statistics module includes a first statistics sub-module for executing the following formula:
  • the word segmentation result list of text 2 is Respectively arrange A 1 and A 2 according to their corresponding word frequency percentages from largest to smallest, and the results after the arrangement are divided into A′ 1 and A′ 2 ,
  • the corresponding word frequency percentage lists are with
  • the large sample research report information extraction device provided in the foregoing embodiment can execute the large sample research report information extraction method provided in any embodiment of this application, and has the corresponding functional modules and beneficial effects for executing the method.
  • the large sample research report information extraction method provided in any embodiment of this application.
  • This embodiment also provides a computer device, such as a smart phone, a tablet computer, a notebook computer, a desktop computer, a rack server, a blade server, a tower server, or a cabinet server (including independent servers, or A server cluster composed of multiple servers), etc.
  • the computer device 20 in this embodiment at least includes but is not limited to: a memory 21 and a processor 22 that can be communicatively connected to each other through a system bus, as shown in FIG. 5. It should be pointed out that FIG. 5 only shows the computer device 20 with components 21-22, but it should be understood that it is not required to implement all the illustrated components, and more or fewer components may be implemented instead.
  • the memory 21 (ie, readable storage medium) includes flash memory, hard disk, multimedia card, card-type memory (for example, SD or DX memory, etc.), random access memory (RAM), static random access memory (SRAM), Read only memory (ROM), electrically erasable programmable read only memory (EEPROM), programmable read only memory (PROM), magnetic memory, magnetic disk, optical disk, etc.
  • the memory 21 may be an internal storage unit of the computer device 20, such as a hard disk or memory of the computer device 20.
  • the memory 21 may also be an external storage device of the computer device 20, such as a plug-in hard disk, a smart media card (SMC), and a secure digital (Secure Digital, SD card, Flash Card, etc.
  • the memory 21 may also include both an internal storage unit of the computer device 20 and an external storage device thereof.
  • the memory 21 is generally used to store the operating system and various application software installed in the computer device 20, such as the program code of the RNNs neural network in the first embodiment.
  • the memory 21 can also be used to temporarily store various types of data that have been output or will be output.
  • the processor 22 may be a central processing unit (Central Processing Unit, CPU), a controller, a microcontroller, a microprocessor, or other data processing chips in some embodiments.
  • the processor 22 is generally used to control the overall operation of the computer device 20.
  • the processor 22 is used to execute the program code or processing data stored in the memory 21, for example, the program code for implementing the method for extracting large-sample research report information.
  • the program code of the method for extracting large-sample research report information is executed, Implement the following steps:
  • This embodiment also provides a computer-readable storage medium, which may be a non-volatile computer-readable storage medium.
  • a computer-readable storage medium such as flash memory, hard disk, multimedia card, card-type memory (for example, SD or DX memory, etc.), random access memory (RAM), static random access memory (SRAM), read only memory (ROM), electrically erasable and programmable memory Read memory (EEPROM), programmable read-only memory (PROM), magnetic memory, magnetic disks, optical disks, servers, App application malls, etc., have computer programs stored thereon, and when the computer programs are executed by the processor, the following method steps are implemented :
  • Another embodiment involving a computer program product includes computer-executable instructions for each of the devices corresponding to at least one of the illustrated systems and/or products. These instructions can be subdivided into subroutines and/or stored in one or more files that may be statically or dynamically linked.
  • the carrier of the computer program may be any entity or device capable of carrying the program.
  • the carrier may contain a storage medium such as (ROM such as CDROM or semiconductor ROM) or magnetic recording medium (such as floppy disk or hard disk).
  • the carrier may be a transmissible carrier, such as an electrical or optical signal, which may be transmitted via a cable or an optical cable, or by radio or other means.
  • the carrier may be composed of such a cable or device.
  • the carrier may be an integrated circuit in which the program is embedded, and the integrated circuit is suitable for performing the related method or used for the execution of the related method.
  • the different functions discussed herein may be performed in a different order and/or simultaneously with each other. Furthermore, if desired, one or more of the functions described above may be optional or may be combined.
  • steps discussed above are not limited to the execution order in each embodiment, and different steps may be executed in a different order and/or executed simultaneously with each other.
  • one or more of the steps described above may be optional or may be combined.
  • each module in the device of the embodiment of the application can be implemented by a general computing device/mobile terminal, and each module can be concentrated on a single computing device/mobile terminal or a network composed of computing devices/mobile terminals
  • the device in the embodiment of the present application corresponds to the method in the foregoing embodiment, which can be implemented by executable program code, or by a combination of integrated circuits. Therefore, the present application is not limited to specific hardware. Or software and its combination.
  • each module in the device of the embodiment of the present application can be implemented by a universal mobile terminal, and each module can be concentrated in a single mobile terminal or a combination of devices composed of mobile terminals.
  • the device in the embodiment corresponds to the method in the foregoing embodiment, which can be implemented by editing executable program code, or by a combination of integrated circuits. Therefore, the present invention is not limited to specific hardware or software. And its combination.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种大样本研报信息提取方法、装置、计算机设备及计算机可读存储介质,其中的所述方法包括:对研报信息进行文本转换得到表格数据,所述表格数据以纯文本形式存储(110);对所述表格数据进行统计,输出所述表格数据中各单词的词频(120);对所述研报信息进行统计,得出每一研报信息与其余研报信息之间的相近程度指标并排序(130);以所述研报信息的数字编号为节点,以得出的所述相近程度指标为枝绘制所述研报信息的关系网(140)。

Description

大样本研报信息提取方法、装置、设备及存储介质
相关申请的交叉引用
本申请申明享有2019年04月04日递交的申请号为CN201910271619.9、名称为“大样本研报信息提取方法、装置、设备及存储介质”的中国专利申请的优先权,该中国专利申请的整体内容以参考的方式结合在本申请中。
技术领域
本申请实施例涉及金融数据处理技术领域,尤其涉及一种大样本研报信息提取方法、装置、设备及存储介质。
背景技术
研究报告信息简称研报,在金融行业中指的是一些上市公司中经营状况以及盈利情形基于独立客观立场做出的分析。
面对海量的研报,在有限的时间里想要阅读大部分的研报显然是不可能的。发明人意识到目前即使熟悉的领域,通过人为经验以及行业了解有选择性地阅读其中的研报,也并不能完全地反映海量研报中的所有重点信息或中心问题,更别说个人经验及行业了解本身具有的滞后性以及对于个人而言其尚有不熟悉的领域,因此,如何能够帮助基金经理在尽可能少的时间里筛选研报,获取充分有用的信息,是一个有重要现实意义的问题。
发明内容
为了克服相关技术中存在的问题,本申请提供一种大样本研报信息提取方法、装置、计算机设备及计算机可读存储介质,以实现通过可视的关系网结合关键词对海量研报信息进行筛选以更有效率地筛选出更有价值的研报信息。
第一方面,本申请实施例提供了一种大样本研报信息提取方法,所述方法 包括:
对研报信息进行文本转换得到表格数据,所述表格数据以纯文本形式存储;
对所述表格数据进行统计,输出所述表格数据中各单词的词频;
对所述研报信息进行统计,得出每一研报信息与其余研报信息之间的相近程度指标并排序;
以所述研报信息的数字编号为节点,以得出的所述相近程度指标为枝绘制所述研报信息的关系网。
本申请第二方面,本申请还提供了一种大样本研报信息提取装置,所述装置包括:
转换模块,用于对研报信息进行文本转换得到表格数据,所述表格数据以纯文本形式存储;
分词模块,用于对所述表格数据进行统计,输出所述表格数据中各单词的词频;
统计模块,用于对所述研报信息进行统计,得出每一研报信息与其余研报信息之间的相近程度指标并排序;
绘制模块,用于以所述研报信息的数字编号为节点,以得出的所述相近程度指标为枝绘制所述研报信息的关系网。
第三方面,本申请还提供了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
对研报信息进行文本转换得到表格数据,所述表格数据以纯文本形式存储;
对所述表格数据进行统计,输出所述表格数据中各单词的词频;
对所述研报信息进行统计,得出每一研报信息与其余研报信息之间的相近程度指标并排序;
以所述研报信息的数字编号为节点,以得出的所述相近程度指标为枝绘制所述研报信息的关系网。
第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机 程序,所述计算机程序被处理器执行时实现以下步骤:
对研报信息进行文本转换得到表格数据,所述表格数据以纯文本形式存储;
对所述表格数据进行统计,输出所述表格数据中各单词的词频;
对所述研报信息进行统计,得出每一研报信息与其余研报信息之间的相近程度指标并排序;
以所述研报信息的数字编号为节点,以得出的所述相近程度指标为枝绘制所述研报信息的关系网。
本申请通过基于Zipf定律和二八法则得出研报的文意相近程度指标并绘制出研报信息的关系网,根据该关系网能够筛选出大部分较为重要以及文意较为接近的研报,使得能够更具效率地筛选出更具价值的研报信息,通过关键词以及关系网的节点密度还能够得出在一个交易时间区间中所体现出的资本市场关注的问题焦点。
附图说明
图1是根据一示例性实施例示出的一种大样本研报信息提取方法的基本流程示意图。
图2是根据一示例性实施例示出的关系网中枝长短的示意图。
图3是根据一示例性实施例示出的关系网的示意图。
图4是根据一示例性实施例示出的一种大样本研报信息提取装置的示意性框图。
图5是根据一示例性实施例示出的实现方法的计算机设备的框图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图中将各步骤描述成顺序的处理,但是其中的许多步骤可以并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排,当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图内的其它步骤。处理可以对应于方法、函数、规程、子例程、子程序等。
本申请涉及一种大样本研报信息提取方法、装置、计算机设备及计算机可读存储介质,其主要运用于在金融行业对于研报信息进行特定需求的技术处理的场景中,其基本思想是:基于Zipf定律,一个单词出现的次数与它在频率表里的排名成反比,以及二八法则,对研报信息中词频排序靠前20%的单词所反映的信息所对应的研报应该占据了研报信息的重要的80%,在此基础上统计得出研报的文意相近程度指标并绘制出研报信息的关系网,根据该关系网能够筛选出大部分较为重要以及文意较为接近的研报,从关系网中能够更方便地筛选出更具价值的研报信息,同时还可根据关系网中的关键词得出资本市场关注的问题焦点。
本实施例可适用于带有中央处理模块的智能终端中以进行大样本研报信息提取的情况中,该方法可以由中央处理模块来执行,其中该中央处理模块可以由软件和/或硬件来实现,一般地可集成于智能终端,如图1所示,为本申请大样本研报信息提取方法的基本流程示意图,所述方法具体包括如下步骤:
在步骤110中,对研报信息进行文本转换,转换后以纯文本形式存储表格数据;
所述研报信息一般为PDF格式,而对于PDF格式中的文字性信息一般无法直接进行处理,此时,需要对研报信息进行转换,借助现有的软件如smallpdf,可以将PDF格式的研报信息转换成word格式,然后将word文件保存为txt格式且只保留文字。
对txt格式的文本进行分词处理,在该过程中可采用分词包进行分词处理,输出结果为CSV格式的文件,CSV格式为以纯文本形式存储表格数据如文本和 数字,该CSV格式是字符序列组成而非二进制这种需要被解读的数据。
在步骤120中,对所述表格数据进行统计,输出所述表格数据中各单词的词频;
对所述CSV格式文本进行统计得到统计结果,该统计结果是一个列表,其包括研报信息所有的单词及相应出现次数,然后将词频结果转换成百分比形式,其可通过下列公式一得出:
公式一:
假设文本的分词结果列表为{X 1,X 2,…,X N},对应的词频列表为{Y 1,Y 2,…,Y N},Y i为单词X i在文本里出现的次数;记
Figure PCTCN2019103230-appb-000001
分词对应的词频百分比列表为{Z 1,Z 2,…,Z N},其中,Z i=Y i/Y all(单位:0.1%),Z i为单词X i在文本里出现的频率的占比,即单词词频。
在步骤130中,对所述研报信息进行统计,得出每一研报信息与其余研报信息之间的相近程度指标并排序;
本步骤中为计算文意相近程度指标的步骤,文意相近程度指标指的是不同的研报信息之间的文意相近程度,其可以反映出不同的研报信息之间的文意相近程度,其可以通过下列公式二得出:
公式二:
在本申请示例性实施例的一种可行的实施方式中,至少包括文本1和文本2,结合图2所示,还可包括文本3,以文本1的分词结果列表为
Figure PCTCN2019103230-appb-000002
文本2的分词结果列表为
Figure PCTCN2019103230-appb-000003
分别对A 1和A 2按各自对应的词频百分比从大到小排列,排列后的结果分为A′ 1和A′ 2
Figure PCTCN2019103230-appb-000004
对应的词频百分比列表分别为
Figure PCTCN2019103230-appb-000005
Figure PCTCN2019103230-appb-000006
引入筛选机制:
Figure PCTCN2019103230-appb-000007
其中,i 1<N 1,且满足
Figure PCTCN2019103230-appb-000008
Figure PCTCN2019103230-appb-000009
i 2<N 2
Figure PCTCN2019103230-appb-000010
计算文本1和文本2的文意相近程度:
记M=(0.8A′ 1)∩(0.8A′ 2),集合M的元素数量为m,这m个单词在文本1和文本2中对应的词频百分比列表分别为
Figure PCTCN2019103230-appb-000011
Figure PCTCN2019103230-appb-000012
Figure PCTCN2019103230-appb-000013
Figure PCTCN2019103230-appb-000014
视作两个向量,记
Figure PCTCN2019103230-appb-000015
由于
Figure PCTCN2019103230-appb-000016
Figure PCTCN2019103230-appb-000017
各自的分量满足正则性,所以
Figure PCTCN2019103230-appb-000018
的取值范围是
Figure PCTCN2019103230-appb-000019
ω的取值范围亦是
Figure PCTCN2019103230-appb-000020
而且ω越大,两个文本越接近。
记U=(0.8A′ 1)∪(0.8A′ 2),集合U的元素数量记做u,定义
Figure PCTCN2019103230-appb-000021
ρ=a ω,指标ρ即是两篇文本的文意相近程度的表征值。
在步骤140中,以所述研报信息的数字编号为节点,以得出的所述相近程度指标为枝绘制所述研报信息的关系网。
本步骤为绘制研步骤,绘制有研报的关系网,首先需要为所述研报信息设置数据编号,数据编号一一对应于所述研报信息且是独立唯一的,以研报信息的数字编号为关系网的节点,关系网两个节点之间的枝就是文意相近程度指标大小,枝的长短以指标值倒数表征,文意越近枝越短,同时也表示两个研报信息相近程度越大。
结合图2所示,包括文本1、文本2和文本3,文本1与文本2之间的枝的长短表示为枝1,文本1与文本3之间的枝的长短表示为枝2,且枝2的长度大于枝1,则图2中的文本1和文本2之间的文本文意较文本1与文本3之间的文本文意更为相近。
结合图3所示,为本申请在建模完成可视化之后的关系网,从关系网的可视图中可看出枝密度较高的节点,对这些枝密度较高的节点对应的研报可重点关注和研读,研读效率大幅提升。
本申请的方法,基于Zipf定律以及二八法则的基础上,分别进行文本转换、分词处理、词频统计、文意相近程度计算、关系网绘制等步骤,最终得出能够体现出词频重要性及文意相近程度指标的研报关系网,根据该研报关系网能够筛选出大部分较为重要以及文意较为接近的研报,大幅提升了阅读效率。
图4为本申请实施例提供的一种大样本研报信息提取装置的结构示意图,该装置可由软件和/或硬件实现,一般地集成于智能终端中,可通过大样本研报信息提取方法来实现。如图所示,本实施例可以以上述实施例为基础,提供 了一种大样本研报信息提取装置,其主要包括了转换模块410、分词模块420、统计模块430和绘制模块440。
其中的转换模块410,用于对研报信息进行文本转换得到表格数据,所述表格数据以纯文本形式存储;
其中的分词模块420,用于对所述表格数据进行统计,输出所述表格数据中各单词的词频;
其中的统计模块430,用于对所述研报信息进行统计,得出每一研报信息与其余研报信息之间的相近程度指标并排序;
其中的绘制模块440,用于以所述研报信息的数字编号为节点,以得出的所述相近程度指标为枝绘制所述研报信息的关系网。
在本申请示例性实施例的一实施方式中,所述分词模块,还用于:
对输入的文本形式的表格数据进行分词处理,得到分词结果;
以文本的分词结果列表为{X 1,X 2,…,X N},对应的词频列表为{Y 1,Y 2,…,Y N},Y i为单词X i在文本里出现的次数;记
Figure PCTCN2019103230-appb-000022
分词对应的词频百分比列表为{Z 1,Z 2,…,Z N},其中,Z i=Y i/Y all(单位:0.1%),Z i为单词X i在文本里出现的频率的占比。
在本申请示例性实施例的一实施方式中,至少包括文本1和文本2,所述统计模块包括第一统计子模块,用于执行下列公式:
以文本1的分词结果列表为
Figure PCTCN2019103230-appb-000023
文本2的分词结果列表为
Figure PCTCN2019103230-appb-000024
分别对A 1和A 2按各自对应的词频百分比从大到小排列,排列后的结果分为A′ 1和A′ 2
Figure PCTCN2019103230-appb-000025
Figure PCTCN2019103230-appb-000026
对应的词频百分比列表分别为
Figure PCTCN2019103230-appb-000027
Figure PCTCN2019103230-appb-000028
引入筛选机制:
Figure PCTCN2019103230-appb-000029
其中,i 1<N 1,且满足
Figure PCTCN2019103230-appb-000030
Figure PCTCN2019103230-appb-000031
i 2<N 2
Figure PCTCN2019103230-appb-000032
计算文本1和文本2的文意相近程度:
记M=(0.8A′ 1)∩(0.8A′ 2),集合M的元素数量为m,这m个单词在文本 1和文本2中对应的词频百分比列表分别为
Figure PCTCN2019103230-appb-000033
Figure PCTCN2019103230-appb-000034
Figure PCTCN2019103230-appb-000035
Figure PCTCN2019103230-appb-000036
视作两个向量,记
Figure PCTCN2019103230-appb-000037
由于
Figure PCTCN2019103230-appb-000038
Figure PCTCN2019103230-appb-000039
各自的分量满足正则性,所以
Figure PCTCN2019103230-appb-000040
的取值范围是
Figure PCTCN2019103230-appb-000041
ω的取值范围亦是
Figure PCTCN2019103230-appb-000042
而且ω越大,两个文本越接近。
记U=(0.8A′ 1)∪(0.8A′ 2),集合U的元素数量记做u,定义
Figure PCTCN2019103230-appb-000043
ρ=a ω,指标ρ即是两篇文本的文意相近程度的表征值。
上述实施例中提供的大样本研报信息提取装置可执行本申请中任意实施例中所提供的大样本研报信息提取方法,具备执行该方法相应的功能模块和有益效果,未在上述实施例中详细描述的技术细节,可参见本申请任意实施例中所提供的大样本研报信息提取方法。
本实施例还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备20至少包括但不限于:可通过系统总线相互通信连接的存储器21、处理器22,如图5所示。需要指出的是,图5仅示出了具有组件21-22的计算机设备20,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器21(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备20的内部存储单元,例如该计算机设备20的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备20的外部存储设备,例如该计算机设备20上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备20的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备20的操作系 统和各类应用软件,例如实施例一的RNNs神经网络的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备20的总体操作。本实施例中,处理器22用于执行存储器21中存储的程序代码或者处理数据,例如实现大样本研报信息提取方法的程序代码,所述大样本研报信息提取方法的程序代码被执行时实现以下步骤:
对研报信息进行文本转换得到表格数据,所述表格数据以纯文本形式存储;
对所述表格数据进行统计,输出所述表格数据中各单词的词频;
对所述研报信息进行统计,得出每一研报信息与其余研报信息之间的相近程度指标并排序;
以所述研报信息的数字编号为节点,以得出的所述相近程度指标为枝绘制所述研报信息的关系网。
本实施例还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性的计算机可读存储介质。如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,所述计算机程序被处理器执行时实现如下方法步骤:
对研报信息进行文本转换得到表格数据,所述表格数据以纯文本形式存储;
对所述表格数据进行统计,输出所述表格数据中各单词的词频;
对所述研报信息进行统计,得出每一研报信息与其余研报信息之间的相近程度指标并排序;
以所述研报信息的数字编号为节点,以得出的所述相近程度指标为枝绘制所述研报信息的关系网。
另一个涉及计算机程序产品的实施例包括对应于所阐明的系统和/或产品中至少一个的装置中每个装置的计算机可执行指令。这些指令可以被再分成子 例程和/或被存储在一个或者多个可能静态或者动态链接的文件中。
计算机程序的载体可以是能够运载程序的任何实体或者装置。例如,载体可以包含存储介质,诸如(ROM例如CDROM或者半导体ROM)或者磁记录介质(例如软盘或者硬盘)。进一步地,载体可以是可传输的载体,诸如电学或者光学信号,其可以经由电缆或者光缆,或者通过无线电或者其它手段传递。当程序具体化为这样的信号时,载体可以由这样的线缆或者装置组成。可替换地,载体可以是其中嵌入有程序的集成电路,所述集成电路适合于执行相关方法,或者供相关方法的执行所用。
应该留意的是,上文提到的实施例是举例说明本发明本申请,而不是限制本发明本申请,并且本领域的技术人员将能够设计许多可替换的实施例,而不会偏离所附权利要求的范围。在权利要求中,任何放置在圆括号之间的参考符号不应被解读为是对权利要求的限制。动词“包括”和其词形变化的使用不排除除了在权利要求中记载的那些之外的元素或者步骤的存在。在元素之前的冠词“一”或者“一个”不排除复数个这样的元素的存在。本发明本申请可以通过包括几个明显不同的组件的硬件,以及通过适当编程的计算机而实现。在列举几种装置的装置权利要求中,这些装置中的几种可以通过硬件的同一项来体现。在相互不同的从属权利要求中陈述某些措施的单纯事实并不表明这些措施的组合不能被用来获益。
如果期望的话,这里所讨论的不同功能可以以不同顺序执行和/或彼此同时执行。此外,如果期望的话,以上所描述的一个或多个功能可以是可选的或者可以进行组合。
如果期望的话,上文所讨论的各步骤并不限于各实施例中的执行顺序,不同步骤可以以不同顺序执行和/或彼此同时执行。此外,在其他实施例中,以上所描述的一个或多个步骤可以是可选的或者可以进行组合。
虽然本发明本申请的各个方面在独立权利要求中给出,但是本发明本申请的其它方面包括来自所描述实施方式的特征和/或具有独立权利要求的特征的从属权利要求的组合,而并非仅是权利要求中所明确给出的组合。
这里所要注意的是,虽然以上描述了本申请的示例实施方式,但是这些描述并不应当以限制的含义进行理解。相反,可以进行若干种变化和修改而并不背离如所附权利要求中所限定的本申请的范围。
本领域普通技术人员应该明白,本申请实施例的装置中的各模块可以用通用的计算装置/移动终端来实现,各模块可以集中在单个计算装置/移动终端或者计算装置/移动终端组成的网络组中,本申请实施例中的装置对应于前述实施例中的方法,其可以通过可执行的程序代码实现,也可以通过集成电路组合的方式来实现,因此本申请并不局限于特定的硬件或者软件及其结合。
本领域普通技术人员应该明白,本发明本申请实施例的装置中的各模块可以用通用的移动终端来实现,各模块可以集中在单个移动终端或者移动终端组成的装置组合中,本发明本申请实施例中的装置对应于前述实施例中的方法,其可以通过编辑可执行的程序代码实现,也可以通过集成电路组合的方式来实现,因此本发明本申请并不局限于特定的硬件或者软件及其结合。
注意,上述仅为本发明本申请的示例性实施例及所运用技术原理。本领域技术人员会理解,本发明本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明本申请的保护范围。因此,虽然通过以上实施例对本发明本申请进行了较为详细的说明,但是本发明本申请不仅仅限于以上实施例,在不脱离本发明本申请构思的情况下,还可以包括更多其他等效实施例,而本发明本申请的范围由所附的权利要求范围决定。

Claims (20)

  1. 一种大样本研报信息提取方法,其中,所述方法包括:
    对研报信息进行文本转换得到表格数据,所述表格数据以纯文本形式存储;
    对所述表格数据进行统计,输出所述表格数据中各单词的词频;
    对所述研报信息进行统计,得出每一研报信息与其余研报信息之间的相近程度指标并排序;
    以所述研报信息的数字编号为节点,以得出的所述相近程度指标为枝绘制所述研报信息的关系网。
  2. 根据权利要求1所述的方法,其中,所述对所述表格数据进行统计,包括:
    对输入的文本形式的表格数据进行分词处理,得到分词结果;
    所述输出所述表格数据中各单词的词频,包括:
    文本的分词结果列表为{X 1,X 2,…,X N},对应的词频列表为{Y 1,Y 2,…,Y N},Y i为单词X i在文本里出现的次数;记
    Figure PCTCN2019103230-appb-100001
    分词对应的词频百分比列表为{Z 1,Z 2,…,Z N},其中,Z i=Y i/Y all(单位:0.1%),Z i为单词X i在文本里出现的频率的占比。
  3. 根据权利要求2所述的方法,其中,至少包括文本1和文本2,所述得出每一研报信息与其余研报信息之间的相近程度指标并排序,包括以下统计步骤:
    文本1的分词结果列表为
    Figure PCTCN2019103230-appb-100002
    文本2的分词结果列表为
    Figure PCTCN2019103230-appb-100003
    分别对A 1和A 2按各自对应的词频百分比从大到小排列,排列后的结果分为A′ 1和A′ 2
    Figure PCTCN2019103230-appb-100004
    Figure PCTCN2019103230-appb-100005
    对应的词频百分比列表分别为
    Figure PCTCN2019103230-appb-100006
    Figure PCTCN2019103230-appb-100007
    引入筛选机制:
    Figure PCTCN2019103230-appb-100008
    其中,i 1<N 1,且满足
    Figure PCTCN2019103230-appb-100009
    Figure PCTCN2019103230-appb-100010
    计算文本1和文本2的文意相近程度:
    记M=(0.8A′ 1)∩(0.8A′ 2),集合M的元素数量为m,这m个单词在文本 1和文本2中对应的词频百分比列表分别为
    Figure PCTCN2019103230-appb-100011
    Figure PCTCN2019103230-appb-100012
    Figure PCTCN2019103230-appb-100013
    Figure PCTCN2019103230-appb-100014
    视作两个向量,记
    Figure PCTCN2019103230-appb-100015
    由于
    Figure PCTCN2019103230-appb-100016
    Figure PCTCN2019103230-appb-100017
    各自的分量满足正则性,所以
    Figure PCTCN2019103230-appb-100018
    的取值范围是
    Figure PCTCN2019103230-appb-100019
    ω的取值范围亦是
    Figure PCTCN2019103230-appb-100020
    而且ω越大,两个文本越接近;
    记U=(0.8A′ 1)∪(0.8A′ 2),集合U的元素数量记做u,定义
    Figure PCTCN2019103230-appb-100021
    指标ρ即是两篇文本的文意相近程度的表征值。
  4. 根据权利要求2所述的方法,其中,所述得出每一研报信息与其余研报信息之间的相近程度指标并排序,包括以下排序步骤:
    排序时包括:
    统计每一研报信息与其余研报信息的文意相近程序的指标和,对所述指标和进行排序。
  5. 根据权利要求1所述的方法,其中,所述以所述研报信息的数字编号为节点,以得出的所述相近程度指标为枝绘制所述研报信息的关系网,包括:
    获取所述研报信息的数字编号作为关系网的节点,两个节点之间的枝为文意相近程度指标,所述枝的长短表征文意相近程序指标的大小。
  6. 一种大样本研报信息提取装置,其中,所述装置包括:
    转换模块,用于对研报信息进行文本转换得到表格数据,所述表格数据以纯文本形式存储;
    分词模块,用于对所述表格数据进行统计,输出所述表格数据中各单词的词频;
    统计模块,用于对所述研报信息进行统计,得出每一研报信息与其余研报信息之间的相近程度指标并排序;
    绘制模块,用于以所述研报信息的数字编号为节点,以得出的所述相近程度指标为枝绘制所述研报信息的关系网。
  7. 根据权利要求6所述的装置,其中,所述分词模块,具体用于:
    对输入的文本形式的表格数据进行分词处理,得到分词结果;
    以文本的分词结果列表为{X 1,X 2,…,X N},对应的词频列表为 {Y 1,Y 2,…,Y N},Y i为单词X i在文本里出现的次数;记
    Figure PCTCN2019103230-appb-100022
    分词对应的词频百分比列表为{Z 1,Z 2,…,Z N},其中,Z i=Y i/Y all(单位:0.1%),Z i为单词X i在文本里出现的频率的占比。
  8. 根据权利要求7所述的装置,其中,至少包括文本1和文本2,所述统计模块包括第一统计子模块,用于执行下列公式:
    以文本1的分词结果列表为
    Figure PCTCN2019103230-appb-100023
    文本2的分词结果列表为
    Figure PCTCN2019103230-appb-100024
    分别对A 1和A 2按各自对应的词频百分比从大到小排列,排列后的结果分为A′ 1和A′ 2
    Figure PCTCN2019103230-appb-100025
    Figure PCTCN2019103230-appb-100026
    对应的词频百分比列表分别为
    Figure PCTCN2019103230-appb-100027
    Figure PCTCN2019103230-appb-100028
    引入筛选机制:
    Figure PCTCN2019103230-appb-100029
    其中,i 1<N 1,且满足
    Figure PCTCN2019103230-appb-100030
    Figure PCTCN2019103230-appb-100031
    计算文本1和文本2的文意相近程度:
    记M=(0.8A′ 1)∩(0.8A′ 2),集合M的元素数量为m,这m个单词在文本1和文本2中对应的词频百分比列表分别为
    Figure PCTCN2019103230-appb-100032
    Figure PCTCN2019103230-appb-100033
    Figure PCTCN2019103230-appb-100034
    Figure PCTCN2019103230-appb-100035
    视作两个向量,记
    Figure PCTCN2019103230-appb-100036
    由于
    Figure PCTCN2019103230-appb-100037
    Figure PCTCN2019103230-appb-100038
    各自的分量满足正则性,所以
    Figure PCTCN2019103230-appb-100039
    的取值范围是
    Figure PCTCN2019103230-appb-100040
    ω的取值范围亦是
    Figure PCTCN2019103230-appb-100041
    而且ω越大,两个文本越接近;
    记U=(0.8A′ 1)∪(0.8A′ 2),集合U的元素数量记做u,定义
    Figure PCTCN2019103230-appb-100042
    指标ρ即是两篇文本的文意相近程度的表征值。
  9. 根据权利要求7所述的装置,其中,所述统计模块包括第一排序子模块,用于:
    排序时包括:
    统计每一研报信息与其余研报信息的文意相近程序的指标和,对所述指标和进行排序。
  10. 根据权利要求6所述的装置,其中,所述绘制模块,具体用于:
    获取所述研报信息的数字编号作为关系网的节点,两个节点之间的枝为文 意相近程度指标,所述枝的长短表征文意相近程序指标的大小。
  11. 一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现以下步骤:
    对研报信息进行文本转换得到表格数据,所述表格数据以纯文本形式存储;
    对所述表格数据进行统计,输出所述表格数据中各单词的词频;
    对所述研报信息进行统计,得出每一研报信息与其余研报信息之间的相近程度指标并排序;
    以所述研报信息的数字编号为节点,以得出的所述相近程度指标为枝绘制所述研报信息的关系网。
  12. 根据权利要求11所述的计算机设备,其中,在实现所述对所述表格数据进行统计的步骤时,具体包括:
    对输入的文本形式的表格数据进行分词处理,得到分词结果;
    在实现所述输出所述表格数据中各单词的词频的步骤时,具体包括:
    文本的分词结果列表为{X 1,X 2,…,X N},对应的词频列表为{Y 1,Y 2,…,Y N},Y i为单词X i在文本里出现的次数;记
    Figure PCTCN2019103230-appb-100043
    分词对应的词频百分比列表为{Z 1,Z 2,…,Z N},其中,Z i=Y i/Y all(单位:0.1%),Z i为单词X i在文本里出现的频率的占比。
  13. 根据权利要求12所述的计算机设备,其中,至少包括文本1和文本2,在实现所述得出每一研报信息与其余研报信息之间的相近程度指标并排序的步骤时,包括以下统计步骤:
    文本1的分词结果列表为
    Figure PCTCN2019103230-appb-100044
    文本2的分词结果列表为
    Figure PCTCN2019103230-appb-100045
    分别对A 1和A 2按各自对应的词频百分比从大到小排列,排列后的结果分为A′ 1和A′ 2
    Figure PCTCN2019103230-appb-100046
    Figure PCTCN2019103230-appb-100047
    对应的词频百分比列表分别为
    Figure PCTCN2019103230-appb-100048
    Figure PCTCN2019103230-appb-100049
    引入筛选机制:
    Figure PCTCN2019103230-appb-100050
    其中,i 1<N 1,且满足
    Figure PCTCN2019103230-appb-100051
    Figure PCTCN2019103230-appb-100052
    计算文本1和文本2的文意相近程度:
    记M=(0.8A′ 1)∩(0.8A′ 2),集合M的元素数量为m,这m个单词在文本1和文本2中对应的词频百分比列表分别为
    Figure PCTCN2019103230-appb-100053
    Figure PCTCN2019103230-appb-100054
    Figure PCTCN2019103230-appb-100055
    Figure PCTCN2019103230-appb-100056
    视作两个向量,记
    Figure PCTCN2019103230-appb-100057
    由于
    Figure PCTCN2019103230-appb-100058
    Figure PCTCN2019103230-appb-100059
    各自的分量满足正则性,所以
    Figure PCTCN2019103230-appb-100060
    的取值范围是
    Figure PCTCN2019103230-appb-100061
    ω的取值范围亦是
    Figure PCTCN2019103230-appb-100062
    而且ω越大,两个文本越接近;
    记U=(0.8A′ 1)∪(0.8A′ 2),集合U的元素数量记做u,定义
    Figure PCTCN2019103230-appb-100063
    指标ρ即是两篇文本的文意相近程度的表征值。
  14. 根据权利要求12所述的计算机设备,其中,在实现所述得出每一研报信息与其余研报信息之间的相近程度指标并排序的步骤时,包括以下排序步骤:
    排序时包括:
    统计每一研报信息与其余研报信息的文意相近程序的指标和,对所述指标和进行排序。
  15. 根据权利要求11所述的计算机设备,其中,在实现所述以所述研报信息的数字编号为节点,以得出的所述相近程度指标为枝绘制所述研报信息的关系网的步骤时,具体包括:
    获取所述研报信息的数字编号作为关系网的节点,两个节点之间的枝为文意相近程度指标,所述枝的长短表征文意相近程序指标的大小。
  16. 一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现以下步骤:
    对研报信息进行文本转换得到表格数据,所述表格数据以纯文本形式存储;
    对所述表格数据进行统计,输出所述表格数据中各单词的词频;
    对所述研报信息进行统计,得出每一研报信息与其余研报信息之间的相近程度指标并排序;
    以所述研报信息的数字编号为节点,以得出的所述相近程度指标为枝绘制所述研报信息的关系网。
  17. 根据权利要求16所述的计算机可读存储介质,其中,在实现所述对所述表格数据进行统计的步骤时,具体包括:
    对输入的文本形式的表格数据进行分词处理,得到分词结果;
    在实现所述输出所述表格数据中各单词的词频的步骤时,具体包括:
    文本的分词结果列表为{X 1,X 2,…,X N},对应的词频列表为{Y 1,Y 2,…,Y N},Y i为单词X i在文本里出现的次数;记
    Figure PCTCN2019103230-appb-100064
    分词对应的词频百分比列表为{Z 1,Z 2,…,Z N},其中,Z i=Y i/Y all(单位:0.1%),Z i为单词X i在文本里出现的频率的占比。
  18. 根据权利要求17所述的计算机可读存储介质,其中,至少包括文本1和文本2,在实现所述得出每一研报信息与其余研报信息之间的相近程度指标并排序的步骤时,包括以下统计步骤:
    文本1的分词结果列表为
    Figure PCTCN2019103230-appb-100065
    文本2的分词结果列表为
    Figure PCTCN2019103230-appb-100066
    分别对A 1和A 2按各自对应的词频百分比从大到小排列,排列后的结果分为A′ 1和A′ 2
    Figure PCTCN2019103230-appb-100067
    Figure PCTCN2019103230-appb-100068
    对应的词频百分比列表分别为
    Figure PCTCN2019103230-appb-100069
    Figure PCTCN2019103230-appb-100070
    引入筛选机制:
    Figure PCTCN2019103230-appb-100071
    其中,i 1<N 1,且满足
    Figure PCTCN2019103230-appb-100072
    Figure PCTCN2019103230-appb-100073
    计算文本1和文本2的文意相近程度:
    记M=(0.8A′ 1)∩(0.8A′ 2),集合M的元素数量为m,这m个单词在文本1和文本2中对应的词频百分比列表分别为
    Figure PCTCN2019103230-appb-100074
    Figure PCTCN2019103230-appb-100075
    Figure PCTCN2019103230-appb-100076
    Figure PCTCN2019103230-appb-100077
    视作两个向量,记
    Figure PCTCN2019103230-appb-100078
    由于
    Figure PCTCN2019103230-appb-100079
    Figure PCTCN2019103230-appb-100080
    各自的分量满足正则性,所以
    Figure PCTCN2019103230-appb-100081
    的取值范围是
    Figure PCTCN2019103230-appb-100082
    ω的取值范围亦是
    Figure PCTCN2019103230-appb-100083
    而且ω越大,两个文本越接近;
    记U=(0.8A′ 1)∪(0.8A′ 2),集合U的元素数量记做u,定义
    Figure PCTCN2019103230-appb-100084
    指标ρ即是两篇文本的文意相近程度的表征值。
  19. 根据权利要求17所述的计算机可读存储介质,其中,在实现所述得出每一研报信息与其余研报信息之间的相近程度指标并排序的步骤时,包括以下排序步骤:
    排序时包括:
    统计每一研报信息与其余研报信息的文意相近程序的指标和,对所述指标和进行排序。
  20. 根据权利要求16所述的计算机可读存储介质,其中,在实现所述以所述研报信息的数字编号为节点,以得出的所述相近程度指标为枝绘制所述研报信息的关系网的步骤时,具体包括:
    获取所述研报信息的数字编号作为关系网的节点,两个节点之间的枝为文意相近程度指标,所述枝的长短表征文意相近程序指标的大小。
PCT/CN2019/103230 2019-04-04 2019-08-29 大样本研报信息提取方法、装置、设备及存储介质 WO2020199482A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910271619.9A CN110110295B (zh) 2019-04-04 2019-04-04 大样本研报信息提取方法、装置、设备及存储介质
CN201910271619.9 2019-04-04

Publications (1)

Publication Number Publication Date
WO2020199482A1 true WO2020199482A1 (zh) 2020-10-08

Family

ID=67485207

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/103230 WO2020199482A1 (zh) 2019-04-04 2019-08-29 大样本研报信息提取方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN110110295B (zh)
WO (1) WO2020199482A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110295B (zh) * 2019-04-04 2023-10-20 平安科技(深圳)有限公司 大样本研报信息提取方法、装置、设备及存储介质
CN111694928A (zh) * 2020-05-28 2020-09-22 平安资产管理有限责任公司 数据指标推荐方法、装置、计算机设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446148A (zh) * 2016-09-21 2017-02-22 中国运载火箭技术研究院 一种基于聚类的文本查重方法
US20170300564A1 (en) * 2016-04-19 2017-10-19 Sprinklr, Inc. Clustering for social media data
CN109325035A (zh) * 2018-11-29 2019-02-12 阿里巴巴集团控股有限公司 相似表的识别方法及装置
CN110110295A (zh) * 2019-04-04 2019-08-09 平安科技(深圳)有限公司 大样本研报信息提取方法、装置、设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2824586A1 (en) * 2013-07-09 2015-01-14 Universiteit Twente Method and computer server system for receiving and presenting information to a user in a computer network
CN108334494B (zh) * 2018-01-23 2022-01-25 创新先进技术有限公司 一种用户关系网络的构建方法和装置
CN108647822A (zh) * 2018-05-10 2018-10-12 平安科技(深圳)有限公司 电子装置、基于研报数据的预测方法和计算机存储介质
CN108710613B (zh) * 2018-05-22 2022-04-08 平安科技(深圳)有限公司 文本相似度的获取方法、终端设备及介质
CN108959453B (zh) * 2018-06-14 2021-08-27 中南民族大学 基于文本聚类的信息提取方法、装置及可读存储介质
CN109284504A (zh) * 2018-10-22 2019-01-29 平安科技(深圳)有限公司 利用深度学习模型的证券研报分析方法及装置
CN109460550A (zh) * 2018-10-22 2019-03-12 平安科技(深圳)有限公司 利用大数据的证券研报情感分析方法、装置及计算机设备
CN109388804A (zh) * 2018-10-22 2019-02-26 平安科技(深圳)有限公司 利用深度学习模型的证券研报核心观点提取方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170300564A1 (en) * 2016-04-19 2017-10-19 Sprinklr, Inc. Clustering for social media data
CN106446148A (zh) * 2016-09-21 2017-02-22 中国运载火箭技术研究院 一种基于聚类的文本查重方法
CN109325035A (zh) * 2018-11-29 2019-02-12 阿里巴巴集团控股有限公司 相似表的识别方法及装置
CN110110295A (zh) * 2019-04-04 2019-08-09 平安科技(深圳)有限公司 大样本研报信息提取方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110110295B (zh) 2023-10-20
CN110110295A (zh) 2019-08-09

Similar Documents

Publication Publication Date Title
TWI718643B (zh) 異常群體識別方法及裝置
WO2022126971A1 (zh) 基于密度的文本聚类方法、装置、设备及存储介质
US20200050968A1 (en) Interactive interfaces for machine learning model evaluations
US20180260484A1 (en) Method, Apparatus, and Device for Generating Hot News
US20160162802A1 (en) Active Machine Learning
CN108376364B (zh) 一种支付系统对账的方法、设备及终端设备
WO2018059016A1 (zh) 针对机器学习的特征处理方法及特征处理系统
WO2020147409A1 (zh) 一种文本分类方法、装置、计算机设备及存储介质
WO2022048363A1 (zh) 网站分类方法、装置、计算机设备及存储介质
CN113722438B (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN110851598A (zh) 文本分类方法、装置、终端设备及存储介质
WO2020199482A1 (zh) 大样本研报信息提取方法、装置、设备及存储介质
CN111241123A (zh) 视图数据查询方法、装置、服务器及存储介质
WO2024036662A1 (zh) 一种基于数据采样的并行图规则挖掘方法及装置
CN114090601B (zh) 一种数据筛选方法、装置、设备以及存储介质
CN113435308B (zh) 文本多标签分类方法、装置、设备及存储介质
CN110837559B (zh) 语句样本集的生成方法、电子装置及存储介质
EP3200098A1 (en) Methods and apparatus for comparing different types of data
CN109740130B (zh) 用于生成文件的方法和装置
CN111143461A (zh) 映射关系处理系统、方法和电子设备
CN115544214A (zh) 一种事件处理方法、设备及计算机可读存储介质
CN112036501A (zh) 基于卷积神经网络的图片的相似度检测方法及其相关设备
CN115392389B (zh) 跨模态信息匹配、处理方法、装置、电子设备及存储介质
CN113392105B (zh) 业务数据处理方法和终端设备
CN113591458B (zh) 基于神经网络的医学术语处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19922605

Country of ref document: EP

Kind code of ref document: A1