WO2020082612A1 - 利用大数据的证券研报情感分析方法、装置及计算机设备 - Google Patents

利用大数据的证券研报情感分析方法、装置及计算机设备 Download PDF

Info

Publication number
WO2020082612A1
WO2020082612A1 PCT/CN2019/070291 CN2019070291W WO2020082612A1 WO 2020082612 A1 WO2020082612 A1 WO 2020082612A1 CN 2019070291 W CN2019070291 W CN 2019070291W WO 2020082612 A1 WO2020082612 A1 WO 2020082612A1
Authority
WO
WIPO (PCT)
Prior art keywords
research report
analyzed
sentiment
negative
securities research
Prior art date
Application number
PCT/CN2019/070291
Other languages
English (en)
French (fr)
Inventor
叶曙峰
蒋逸文
孙葛亮
刘琼
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2020082612A1 publication Critical patent/WO2020082612A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Definitions

  • This application relates to the field of computer technology, and in particular to a sentiment analysis method, device, and computer equipment for securities research reports using big data.
  • Securities research report also referred to as securities research report, refers to the research report made by relevant researchers (such as researchers in a securities company, etc.) to analyze the value of securities and related products, or factors that affect their market prices. .
  • the purpose of this application is to provide a securities research report sentiment analysis method, device, computer equipment, and readable storage medium using big data, and to a certain extent, to overcome the problems in the above-mentioned prior art, can improve the securities research report The efficiency and accuracy of sentiment analysis.
  • a method for analyzing sentiment analysis of a securities research report using big data including the following steps:
  • S05 Determine the sentiment type of each participle in the predicted clause in the securities research report to be analyzed according to the sentiment dictionary;
  • the preset scoring rules are used to score each predicted category clause in the analysis securities research report;
  • S08 Compare the overall sentiment score of the securities research report to be analyzed with a preset score threshold, and obtain the sentiment analysis result of the securities research report to be analyzed according to the comparison result.
  • the present application also provides a sentiment analysis device for securities research reports using big data, including:
  • the receiving module is used to receive the input securities research report to be analyzed
  • Sentence module which is used to perform sentence processing on the securities research report to be analyzed to obtain each clause in the securities research report to be analyzed;
  • the word segmentation module is used to perform word segmentation on each clause in the securities research report to be analyzed to obtain each word segment in the securities research report to be analyzed;
  • the predictive clause determination module is used to determine the predictive clause in the securities research report to be analyzed based on each participle in the securities research report to be analyzed;
  • a sentiment type determination module used to determine the sentiment type of each participle in the predicted clause in the securities research report to be analyzed according to the sentiment dictionary;
  • the scoring module is used to score each predicted clause in the analyzed securities research report based on the sentiment type of each participle in the predicted clause in the securities research report to be analyzed;
  • the calculation module is used to calculate the overall sentiment score of the securities research report to be analyzed based on the scores of each predicted clause in the securities research report to be analyzed;
  • the sentiment analysis result obtaining module is used to compare the overall sentiment score of the securities research report to be analyzed with a preset score threshold, and obtain the sentiment analysis result of the securities research report to be analyzed according to the comparison result.
  • the present application also provides a computer device, including a memory, a processor, and a computer program stored on the memory and executable on the processor, and the processor implements the program to realize securities that utilize big data Research the following steps of the sentiment analysis method:
  • S05 Determine the sentiment type of each participle in the predicted clause in the securities research report to be analyzed according to the sentiment dictionary;
  • the preset scoring rules are used to score each predicted category clause in the analysis securities research report;
  • S08 Compare the overall sentiment score of the securities research report to be analyzed with a preset score threshold, and obtain the sentiment analysis result of the securities research report to be analyzed according to the comparison result.
  • the present application also provides a computer-readable storage medium on which a computer program is stored, and when the program is executed by a processor, the following steps of the securities research report sentiment analysis method using big data are implemented:
  • S05 Determine the sentiment type of each participle in the predicted clause in the securities research report to be analyzed according to the sentiment dictionary;
  • the preset scoring rules are used to score each predicted category clause in the analysis securities research report;
  • the overall sentiment score of the securities research report to be analyzed is compared with a preset score threshold, and the sentiment analysis result of the securities research report to be analyzed is obtained according to the comparison result.
  • the sentiment analysis method, device, computer equipment and readable storage medium of the securities research report using big data can extract the word segmentation in a large number of securities research reports in advance to generate a sentiment dictionary including the required sentiment type lexicon, Based on this, the securities research report to be analyzed can be segmented and segmented first, and then the predicted segment can be determined first by matching each segment with the sentiment dictionary, and then the sentiment of each segment in the forecast segment can be determined.
  • the sentiment analysis of the securities research report to be analyzed can be realized based on big data analysis and intelligent scoring, which not only saves manpower greatly, but also improves analysis efficiency and accuracy of analysis results.
  • FIG. 1 is a schematic flowchart of an alternative method for analyzing sentiment analysis of a securities research report using big data according to an embodiment of the present application
  • FIG. 2 is a schematic diagram of an optional program module of a securities research report sentiment analysis device using big data according to an embodiment of the present application
  • FIG. 3 is a schematic diagram of another optional program module of a securities research report sentiment analysis device using big data according to an embodiment of the present application
  • FIG. 4 is a schematic diagram of an optional hardware architecture of a computer device according to an embodiment of the present application.
  • FIG. 1 is a schematic diagram of an alternative process of the sentiment analysis method of securities research report using big data in this application. As shown in FIG. 1, the method may include the following steps:
  • a piece of securities research report to be analyzed can be used as a unit for sentiment analysis.
  • the format of the piece of securities research report to be analyzed can be judged first. Specifically, it can be determined whether the format of the securities research report to be analyzed is a text type, such as ".txt" format, ".doc” format, and so on.
  • the format of the securities research report to be analyzed can be converted to a text type, for example, the format of the securities research report is a portable file format (PDF format ), You can use the existing “PDFParser” and other tools to convert the securities research report in PDF format to the securities research report in txt format. In this way, the format of the received securities research report can be unified to read the content of the securities research report to be analyzed more conveniently and efficiently.
  • PDF format portable file format
  • the securities research report to be analyzed can be segmented according to a preset type of symbol, such as comma ",”, period “.”, Period “.”, Dash “-”, square bracket “ [], [] “, Semicolon”; "and other symbols, to deal with the analysis of the securities research report clauses, in order to get the analysis of the securities research report clauses.
  • S03 Perform word segmentation processing on each clause in the securities research report to be analyzed, to obtain each word segment in the securities research report to be analyzed.
  • the word segmentation module in the prior art can be further used, for example, the jieba word segmentation module is used to perform word segmentation processing on the above clauses to obtain the securities research to be analyzed The participles in the newspaper.
  • a prediction category clause in the securities research report to be analyzed is determined using a pre-established sentiment dictionary.
  • the process can include the following steps:
  • Step 110 Perform clause processing on a preset number of securities research reports to obtain each clause in the securities research report (in this embodiment, it may be referred to as a first clause).
  • Step 120 Perform word segmentation processing on each first clause to obtain each first segment in the securities research report.
  • the existing word segmentation module After obtaining each first clause, you can use the existing word segmentation module, for example, use the jieba word segmentation module to perform word segmentation processing on each first clause to obtain each word segment in all securities research reports (in this embodiment, it can be called Is the first participle).
  • Step 130 Extract the word segmentation used to express positive emotions, the word segmentation used to express negative emotions, the word segmentation used to express negative emotions, and the word segmentation used to express predictions from all the first word segments.
  • a manual inspection step can also be added to verify the extraction results to obtain more accurate extraction results, so as to prepare sufficient data for subsequent establishment of related lexicons.
  • Step 140 Generate a positive sentiment lexicon, a negative sentiment lexicon, a negative sentiment lexicon, and a predicted lexicon based on the extraction results.
  • a positive emotion lexicon can be generated based on the extracted word segment for expressing positive emotions
  • a negative emotion lexicon can be generated based on the extracted word segment for expressing negative emotions
  • a negative emotion can be generated based on the extracted word segment for expressing negative emotions
  • the thesaurus generates prediction class libraries based on the extracted word segmentation used to express predictions, and generates industry-like thesaurus based on the extracted industry-related word segmentation.
  • Step 150 Establish an emotional dictionary based on the positive emotional lexicon, negative emotional lexicon, negative emotional lexicon, and predicted lexicon.
  • each word segmentation in the securities research report to be analyzed in S03 can be matched with the word segmentation in the predicted lexicon in the sentiment dictionary. If any participle in the research report matches the participle in the predictive lexicon in the sentiment dictionary, then any one participle can be determined as a predictive classifier, and then the clause to which any one participle belongs can be determined as a predictive class Clause.
  • S05 Determine the sentiment type of each participle in the predictive clause in the securities research report to be analyzed according to the sentiment dictionary.
  • the word segments included in the prediction clauses can be matched with the positive emotion lexicons, negative emotion lexicons, and negative emotion lexicons in the emotion dictionary. , If any word segmentation can match the word segmentation in the positive sentiment lexicon, or can match the word segmentation in the negative sentiment lexicon, or can match the word segmentation in the negative sentiment lexicon, then any word segmentation
  • the emotional types of are determined as positive participle, negative participle and negative participle.
  • the preset scoring rules are used to score each predicted clause in the analyzed securities research report.
  • each predicted class can be classified in an intelligent scoring manner The sentiment trend of the sentence can be evaluated, and the score can be applied to the subsequent steps to calculate the overall sentiment score of the securities research report.
  • the number of negative participles is odd (for example, the number of negative participles is 1, it is "difficult"), it can be further determined whether the front part or the back part adjacent to the odd numbered negative participle is a positive participle or a negative participle.
  • the negative participle combined with the positive participle expresses a negative meaning.
  • the combination of the negative participle and the negative participle expresses a positive meaning, in this case, the negative participle
  • the sentiment trend of the forecast clause is closely related to the overall sentiment trend of the securities research report. Therefore, the overall sentiment trend of the securities research report can be obtained in the subsequent steps based on the score of each forecast category clause.
  • the scores of each prediction clause in the securities research report to be analyzed include positive scores and negative scores, which correspond to positive prediction clauses and negative prediction clauses, respectively.
  • the score can be weighted and accumulated.
  • the average score of all positive forecast clauses and the average score of all negative forecast clauses in the securities research report to be analyzed can be calculated separately, because in actual situations, most securities research reports are biased toward positive Therefore, in this scheme, we give higher weight to the negative predictive clause, for example, it can be set to double the positive predictive clause.
  • the average score of all positive prediction clauses and the average score of all negative prediction clauses can be summed to obtain the overall sentiment score of the securities research report to be analyzed.
  • the formula is calculated:
  • S08 Compare the overall sentiment score of the securities research report to be analyzed with a preset score threshold, and obtain the sentiment analysis result of the securities research report to be analyzed according to the comparison result.
  • the preset score threshold can be set to 0, but considering that in actual situations, most securities research reports are biased towards positive views, therefore, in this embodiment, the preset score threshold can be set to include The first preset score threshold and the second preset score threshold, and the first preset score threshold is less than the second preset score threshold, for example, can be set to 0 and 0.2, respectively.
  • the sentiment analysis result of the securities research report to be analyzed that the overall sentiment score is lower than the first preset score threshold may be determined to be bearish; the overall sentiment score is between the first preset
  • the sentiment analysis results of the securities research report to be analyzed between the score threshold and the second preset score threshold are determined to be equal; the overall sentiment score is higher than the second preset score threshold (also That is, the sentiment analysis result of the securities investment research report to be analyzed is determined to be bullish (also called bullish).
  • the sentiment analysis result of the securities research report to be analyzed can be obtained by comparing the objective scoring result with a predetermined index, thereby ensuring the objectivity and accuracy of the sentiment analysis result.
  • the word segmentation in a large number of securities research reports can be extracted in advance to generate a sentiment dictionary that includes the vocabulary of the required sentiment type.
  • the securities research report to be analyzed can be first segmented and segmented Process, and then determine the predicted class clause by matching the obtained participles with the sentiment dictionary, then determine the sentiment type of each participle in the predicted class clause, and then based on the sentiment type of each participle in the predicted class clause and
  • the preset scoring rules are used to score each of the predicted clauses, and the overall sentiment score of the securities research report to be analyzed can be calculated based on the scoring result, and finally according to the comparison between the overall sentiment score of the securities research report to be analyzed and the preset score threshold
  • the sentiment analysis results of the securities research report to be analyzed are obtained.
  • the sentiment analysis of the securities research report to be analyzed can be realized based on big data analysis and intelligent scoring, which not only saves manpower greatly, but also improves analysis efficiency and accuracy
  • this embodiment provides a sentiment analysis device of securities research report using big data.
  • FIGS. 2 to 3 show the use of big data
  • the securities research report sentiment analysis device using big data is divided into one or more program modules, and one or more program modules are stored in a storage medium, and It is executed by one or more processors to complete this application.
  • the program module referred to in this application refers to a series of computer program instruction segments that can perform specific functions. It is more suitable than the program itself to describe the execution process of the securities research report sentiment analysis device using big data in the storage medium. The following description will specifically introduce The function of each program module in this embodiment.
  • the securities research report sentiment analysis device 20 using big data may include:
  • the receiving module 21 can be used to receive the input securities research report to be analyzed
  • Sentence module 22 can be used to perform sentence processing on the securities research report to be analyzed to obtain each clause in the securities research report to be analyzed;
  • the word segmentation module 23 can be used to perform word segmentation processing on each clause in the securities research report to be analyzed to obtain each word segment in the securities research report to be analyzed;
  • the predictive clause determination module 24 can be used to determine the predictive clause in the securities research report to be analyzed based on each participle in the securities research report to be analyzed;
  • the sentiment type determination module 25 can be used to determine the sentiment type of each participle in the predicted clause in the securities research report to be analyzed according to the sentiment dictionary;
  • the scoring module 26 can be used to score each predicted clause in the analyzed securities research report based on the sentiment type of each segment in the predicted clause in the securities research report to be analyzed;
  • the calculation module 27 can be used to calculate the overall sentiment score of the securities research report to be analyzed based on the scores of each predicted category clause in the securities research report to be analyzed;
  • the sentiment analysis result obtaining module 28 may be used to compare the overall sentiment score of the securities research report to be analyzed with a preset score threshold, and obtain the sentiment analysis result of the securities research report to be analyzed according to the comparison result.
  • building an emotion dictionary may include the following steps:
  • Step 110 Perform sentence processing on the preset number of securities research reports to obtain each first clause in the securities research report;
  • Step 120 Perform word segmentation processing on each first clause to obtain each first segment in the securities research report;
  • Step 130 extract from all the first participles the participle for expressing positive emotions, the participle for expressing negative emotions, the participle for expressing negative emotions and the participle for expressing predictions;
  • Step 140 Generate a positive sentiment lexicon, a negative sentiment lexicon, a negative sentiment lexicon, and a predicted lexicon according to the extraction results;
  • Step 150 Establish an emotional dictionary based on the positive emotional lexicon, negative emotional lexicon, negative emotional lexicon, and predicted lexicon.
  • prediction class clause determination module 24 may be specifically used for:
  • any participle in the securities research report to be analyzed can match the participle in the predictive vocabulary in the sentiment dictionary, then the clause to which the any participle belongs is determined as the predictive clause.
  • emotion type determination module 25 may be specifically used for:
  • any participle in the securities research report to be analyzed can match the participle in the positive sentiment lexicon, negative sentiment lexicon or negative sentiment lexicon, then the sentiment type of any participle is determined as positive participle, negative participle or Negative participle.
  • the scoring module 26 may specifically include:
  • the statistical unit 261 can be used to count the initial number of positive word segments and negative word segments and the number of negative word segments in each predicted clause in the securities research report to be analyzed;
  • the first judgment unit 262 can be used to judge whether the number of negative word segments is odd;
  • the second judging unit 263 can be used to judge whether an odd number of negative participles before or after the negative participle is positive or negative when the judgment result of the first judgment unit 262 is yes;
  • the participle number adjustment unit 264 can be used to reduce the initial number of positive participles by one and increase the initial number of negative participles when an odd number of negative participles are in front of or behind adjacent positive participles, respectively, as adjusted positives
  • the number of participles and the number of negative participles when an odd number of negative participles is adjacent to the negative participle before or after it, the initial number of negative participles is reduced by one and the initial number of positive participles is increased by one to be used as adjusted negative participles Number and number of positive participles;
  • the scoring unit 265 can be used to divide the difference between the number of positive word segments and the number of negative word segments in each forecast-type clause in the securities research report to be analyzed by the sum of the number of positive word segments and the number of negative word segments to obtain the Scoring of each prediction clause.
  • the scores of the forecast clauses in the securities research report to be analyzed include positive scores and negative scores, which correspond to positive predictive clauses and negative predictive clauses, respectively.
  • calculation module 27 can be specifically used for:
  • the average score of all positive prediction clauses in the securities research report to be analyzed and the average score of all negative prediction clauses are doubled to calculate the overall sentiment score of the securities research report to be analyzed.
  • the preset score threshold may include a first preset score threshold and a second preset score threshold, the first preset score threshold is less than the second preset score threshold.
  • the sentiment analysis result acquisition module 28 can be specifically used for:
  • the word segmentation in a large number of securities research reports can be extracted in advance to generate a sentiment dictionary that includes the vocabulary of the required sentiment type.
  • the securities research report to be analyzed can be first segmented and segmented Process, and then determine the predicted class clause by matching the obtained participles with the sentiment dictionary, then determine the sentiment type of each participle in the predicted class clause, and then based on the sentiment type of each participle in the predicted class clause and
  • the preset scoring rules are used to score each of the predicted clauses, and the overall sentiment score of the securities research report to be analyzed can be calculated based on the scoring result, and finally according to the comparison between the overall sentiment score of the securities research report to be analyzed and the preset score threshold
  • the sentiment analysis results of the securities research report to be analyzed are obtained.
  • the sentiment analysis of the securities research report to be analyzed can be realized based on big data analysis and intelligent scoring, which not only saves manpower greatly, but also improves analysis efficiency and accuracy of analysis
  • This embodiment also provides a computer device, such as a smartphone, a tablet computer, a notebook computer, a desktop computer, a rack server, a blade server, a tower server, or a rack server (including an independent server, or A server cluster composed of multiple servers), etc.
  • the computer device 40 of this embodiment includes at least but not limited to: a memory 41 and a processor 42 that can be connected to each other through a system bus, as shown in FIG. 4.
  • FIG. 4 only shows the computer device 40 having the components 41-42, but it should be understood that it is not required to implement all the components shown, and more or fewer components may be implemented instead.
  • the memory 41 (ie, readable storage medium) includes flash memory, hard disk, multimedia card, card-type memory (for example, SD or DX memory, etc.), random access memory (RAM), static random access memory (SRAM), Read only memory (ROM), electrically erasable programmable read only memory (EEPROM), programmable read only memory (PROM), magnetic memory, magnetic disk, optical disk, etc.
  • the memory 41 may be an internal storage unit of the computer device 40, such as a hard disk or a memory of the computer device 40.
  • the memory 41 may also be an external storage device of the computer device 40, for example, a plug-in hard disk equipped on the computer device 40, a smart memory card (Smart Media, Card, SMC), and secure digital (Secure Digital, SD) card, flash card (Flash Card), etc.
  • the memory 41 may also include both the internal storage unit of the computer device 40 and its external storage device.
  • the memory 41 is generally used to store the operating system and various application software installed in the computer device 40, such as the program code of the securities research report sentiment analysis device using big data in Embodiment 2.
  • the memory 41 can also be used to temporarily store various types of data that have been output or are to be output.
  • the processor 42 may be a central processing unit (CPU), controller, microcontroller, microprocessor, or other data processing chip in some embodiments.
  • the processor 42 is generally used to control the overall operation of the computer device 40.
  • the processor 42 is used to run program codes stored in the memory 41 or process data, such as a securities research report sentiment analysis device using big data.
  • This embodiment also provides a computer-readable storage medium, such as flash memory, hard disk, multimedia card, card-type memory (for example, SD or DX memory, etc.), random access memory (RAM), static random access memory (SRAM), only Read memory (ROM), electrically erasable programmable read-only memory (EEPROM), programmable read-only memory (PROM), magnetic memory, magnetic disk, optical disk, server, App store, etc., on which computer programs are stored, When the program is executed by the processor, the corresponding function is realized.
  • the computer-readable storage medium of this embodiment is used for a securities research report sentiment analysis device using big data, and when executed by a processor, implements the securities research report sentiment analysis method using big data of Embodiment 1.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Resources & Organizations (AREA)
  • Probability & Statistics with Applications (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

一种利用大数据的证券研报情感分析方法,包括:接收输入的待分析证券研报(S01);对待分析证券研报进行分句以得到各分句(S02);对各分句进行分词以得到各分词(S03);基于各分词利用情感词典确定预测类分句(S04);根据情感词典确定预测类分句中各分词的情感类型(S05);基于各分词的情感类型并利用预置评分规则对各预测类分句进行评分(S06);基于评分计算得到待分析证券研报的整体情感分数(S07);根据待分析证券研报的整体情感分数与预设分数阈值的比对结果获取待分析证券研报的情感分析结果(S08)。利用大数据分析及智能化评分的方式实现对证券研报的情感分析,可解决现有技术针对证券研报情感分析方案的效率及准确率较低的问题,提高证券研报情感分析的效率及准确率。

Description

利用大数据的证券研报情感分析方法、装置及计算机设备
相关申请的交叉引用
本申请申明享有2018年10月22日递交的申请号为CN2018112282401、名称为“利用大数据的证券研报情感分析方法、装置及计算机设备”的中国专利申请的优先权,该中国专利申请的整体内容以参考的方式结合在本申请中。
技术领域
本申请涉及计算机技术领域,具体涉及一种利用大数据的证券研报情感分析方法、装置及计算机设备。
背景技术
证券研究报告,也可简称为证券研报,是指相关研究人员(比如证券公司内的研究人员等)对证券及相关产品的价值、或者影响其市场价格的因素进行分析,所作出的研究报告。
对证券研报进行分析,可以及时了解证券研报中关于行业、政策、投资可行性等方面情况。以针对证券研报的情感分析为例,目前主要还是通过人工方式对证券研报进行阅读,以分析出作者的情感趋势,但此种方式需要耗费大量人力,且效率及准确率都较低。此外,也有通过情感词典进行分析的方案,比如利用现有可用来判断积极和消极情感方面的词典资源,如知网汉语词典Hownet、台湾大学简体中文情感极性词典NTUSD等,但是,此种方式大多是针对短句进行分析,相对割裂了语句的前后关系,很难对整篇文章做出较为完善准确的分析,尤其在针对具有因果、转折类等关联关系的大量语句时,分析的准确率更不理想。
相关技术中针对证券研报情感分析方案的效率及准确率较低的问题,目前尚未提出有效的解决方案。
发明内容
本申请的目的在于提供一种利用大数据的证券研报情感分析方法、装置、计算机设备及可读存储介质,进而在一定程度上克服上述现有技术中存在的问题,可提高对证券研报情感分析的效率及准确率。
本申请是通过下述技术方案来解决上述技术问题:
根据本申请的一个方面,提供了一种利用大数据的证券研报情感分析方法,包括如下步骤:
S01,接收输入的待分析证券研报;
S02,对待分析证券研报进行分句处理,得到待分析证券研报中的各分句;
S03,对待分析证券研报中的各分句进行分词处理,得到待分析证券研报中的各分词;
S04,基于待分析证券研报中的各分词,利用预先建立的情感词典确定待分析证券研报中的预测类分句;
S05,根据所述情感词典确定待分析证券研报中的预测类分句中各分词的情感类型;
S06,基于待分析证券研报中的各分词的情感类型,利用预置评分规则对待分析证券研报中的各预测类分句进行评分;
S07,基于待分析证券研报中的各预测类分句的评分,计算得到待分析证券研报的整体 情感分数;
S08,将待分析证券研报的整体情感分数与预设分数阈值进行比对,并根据比对结果获取待分析证券研报的情感分析结果。
为了实现上述目的,本申请还提供一种利用大数据的证券研报情感分析装置,包括:
接收模块,用于接收输入的待分析证券研报;
分句模块,用于对待分析证券研报进行分句处理,得到待分析证券研报中的各分句;
分词模块,用于对待分析证券研报中的各分句进行分词处理,得到待分析证券研报中的各分词;
预测类分句确定模块,用于基于待分析证券研报中的各分词,利用预先建立的情感词典确定待分析证券研报中的预测类分句;
情感类型确定模块,用于根据所述情感词典确定待分析证券研报中的预测类分句中各分词的情感类型;
评分模块,用于基于待分析证券研报中的预测类分句中各分词的情感类型,利用预置评分规则对待分析证券研报中的各预测类分句进行评分;
计算模块,用于基于待分析证券研报中的各预测类分句的评分,计算得到待分析证券研报的整体情感分数;
情感分析结果获取模块,用于将待分析证券研报的整体情感分数与预设分数阈值进行比对,并根据比对结果获取待分析证券研报的情感分析结果。
为了实现上述目的,本申请还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现利用大数据的证券研报情感分析方法的以下步骤:
S01,接收输入的待分析证券研报;
S02,对待分析证券研报进行分句处理,得到待分析证券研报中的各分句;
S03,对待分析证券研报中的各分句进行分词处理,得到待分析证券研报中的各分词;
S04,基于待分析证券研报中的各分词,利用预先建立的情感词典确定待分析证券研报中的预测类分句;
S05,根据所述情感词典确定待分析证券研报中的预测类分句中各分词的情感类型;
S06,基于待分析证券研报中的各分词的情感类型,利用预置评分规则对待分析证券研报中的各预测类分句进行评分;
S07,基于待分析证券研报中的各预测类分句的评分,计算得到待分析证券研报的整体情感分数;
S08,将待分析证券研报的整体情感分数与预设分数阈值进行比对,并根据比对结果获取待分析证券研报的情感分析结果。
为了实现上述目的,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现利用大数据的证券研报情感分析方法的以下步骤:
S01,接收输入的待分析证券研报;
S02,对待分析证券研报进行分句处理,得到待分析证券研报中的各分句;
S03,对待分析证券研报中的各分句进行分词处理,得到待分析证券研报中的各分词;
S04,基于待分析证券研报中的各分词,利用预先建立的情感词典确定待分析证券研报中的预测类分句;
S05,根据所述情感词典确定待分析证券研报中的预测类分句中各分词的情感类型;
S06,基于待分析证券研报中的各分词的情感类型,利用预置评分规则对待分析证券研报中的各预测类分句进行评分;
S07,基于待分析证券研报中的各预测类分句的评分,计算得到待分析证券研报的整体情感分数;
S08,将待分析证券研报的整体情感分数与预设分数阈值进行比对,并根据比对结果获 取待分析证券研报的情感分析结果。
本申请提供的利用大数据的证券研报情感分析方法、装置、计算机设备及可读存储介质,可预先对大量证券研报中的分词进行提取以生成包括所需情感类型词库的情感词典,基于此,可先将待分析证券研报进行分句以及分词处理,然后通过将得到的各分词与情感词典匹配的方式先确定出预测类分句再确定出预测类分句中各分词的情感类型,接下来基于预测类分句中各分词的情感类型并利用预置评分规则对各预测类分句进行评分,并可基于评分结果计算得到待分析证券研报的整体情感分数,最后根据待分析证券研报的整体情感分数与预置分数阈值的比对结果获得待分析证券研报的情感分析结果。通过本方案,可基于大数据分析及智能化评分的方式实现对待分析证券研报的情感分析,不但可大大节省人力,而且可提高分析效率及分析结果的准确率。
附图说明
图1是根据本申请实施例的利用大数据的证券研报情感分析方法的一种可选的流程示意图;
图2是根据本申请实施例的利用大数据的证券研报情感分析装置的一种可选的程序模块示意图;
图3是根据本申请实施例的利用大数据的证券研报情感分析装置的另一种可选的程序模块示意图;
图4是根据本申请实施例的计算机设备的一种可选的硬件架构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例1
下面结合附图对本申请提供的利用大数据的证券研报情感分析方法进行说明。
图1为本申请利用大数据的证券研报情感分析方法的一种可选的流程示意图,如图1所示,该方法可以包括以下步骤:
S01,接收输入的待分析证券研报。
在本实施例中,比如可以一篇待分析证券研报为单位进行情感分析,当接收到一篇待分析证券研报后,可先对该篇待分析证券研报的格式进行判断。具体的,可判断该待分析证券研报的格式是否为文本类型,比如“.txt”格式、“.doc”格式等。若判断结果为否,也就是说该待分析证券研报的格式不是文本类型,则可将该待分析证券研报的格式转换为文本类型,比如证券研报的格式为便携文件格式(PDF格式),则可使用现有的“PDFParser”等工具将PDF格式的证券研报转换txt格式的证券研报。以此,可统一接收到的待分析证券研报的格式,以更方便且更高效的对待分析证券研报的内容进行读取。
S02,对待分析证券研报进行分句处理,得到待分析证券研报中的各分句。
在本实施例中,可根据预置类型的符号对待分析证券研报进行分句处理,比如可根据逗号“,”、句号“。”、点号“.”、破折号“—”、中括号“[]、【】”、分号“;”等符号,对待分析证券研报进行分句处理,以得到待分析证券研报中的各分句。
S03,对待分析证券研报中的各分句进行分词处理,得到待分析证券研报中的各分词。
在具体实现时,在得到待分析证券研报中的各分句后,可进一步采用现有技术中的分词模块,比如采用jieba分词模块对上述各分句进行分词处理,以得到待分析证券研报中的 各分词。
S04,基于待分析证券研报中的各分词,利用预先建立的情感词典确定待分析证券研报中的预测类分句。
首先,可先对情感词典的建立过程进行说明,该过程可包括如下步骤:
步骤110,对预置篇数的证券研报进行分句处理,得到证券研报中的各分句(在本实施例中,可称为第一分句)。
预先选取预置篇数(比如300篇等)涉及不同行业的证券研报,然后对各篇证券研报进行分句处理,以得到所有证券研报中的各第一分句。
步骤120,对各第一分句进行分词处理,得到证券研报中的各第一分词。
在得到各第一分句后,可利用现有分词模块,比如采用jieba分词模块对各第一分句进行分词处理,以得到所有证券研报中的各分词(在本实施例中,可称为第一分词)。
步骤130,从所有第一分词中提取用于表达正面情感的分词、用于表达负面情感的分词、用于表达否定情感的分词及用于表达预测的分词。
在得到所有证券研报中的各第一分词后,我们可利用人工提取与机器提取相结合的方式,从各第一分词中提取用于表达正面情感的分词(主要包括对市场和行业看多的词语,比如“领先大市”、“价值低估”等)、用于表达负面情感的分词(主要包括对市场和行业看空的词语,比如“经济衰退”、“差强人意”等)、用于表达否定情感的分词(主要指可对句子含义起到反转作用的词语,比如“极难”、“无理由”等)、用于表达预测的分词(主要指与作者的预判、建议等相关的词语,主要用于后续定位预测类分句,比如“建议”、“预计”、“预测”等),此外,在实际应用中,还可以进一步提取与行业相关的分词(主要用于定位行业,比如“有色金属”、“化工行业”等)。
当然,在提取完成后,还可以加入人工检验的步骤,对提取结果进行校验,以得到更为准确的提取结果,从而为后续建立各相关词库做充分的数据准备。
步骤140,根据提取结果分别生成正面情感词库、负面情感词库、否定情感词库及预测类词库。
也就是说,可根据提取的用于表达正面情感的分词生成正面情感词库,根据提取的用于表达负面情感的分词生成负面情感词库,根据提取的用于表达否定情感的分词生成否定情感词库,根据提取的用于表达预测的分词生成预测类库,根据提取的行业相关的分词生成行业相类词库。
步骤150,基于正面情感词库、负面情感词库、否定情感词库及预测类词库建立情感词典。
将生成的正面情感词库、负面情感词库、否定情感词库、预测类词库、行业相类词库等整合起来以建立情感词典,以便后续在对证券研报进行情感分析时,可根据情感词典中的各词库快速且准确的确定分词类型、分句类型等,从而实现对语句、文章等做出更为准确的分析(尤其是情感分析)。
在本实施例中,在S03得到待分析证券研报中的各分词后,可将待分析证券研报中的各分词与情感词典中的预测类词库中的分词进行匹配,若待分析证券研报中的任一分词能够与情感词典中预测类词库中的分词相匹配,则可将该任一分词确定为预测类分词,进而可将该任一分词所属的分句确定为预测类分句。
由于在证券研报中,预测类语句(也可理解为本方案中的预测类分句)出现的地方,通常对应为作者用来表达对未来市场行情发展的研判(比如可包括看涨、看空等情感趋势),因此,先确定出预测类分句,再对预测类分句中的分词进行情感分析,可准确且有效的分析出作者的情感趋势。
S05,根据情感词典确定待分析证券研报中的预测类分句中各分词的情感类型。
在具体实现时,在确定了各预测类分句后,可将预测类分句中包含的各分词分别与情感词典中正面情感词库、负面情感词库、否定情感词库中的分词进行匹配,若任一分词能 够与正面情感词库中的分词相匹配,或者能够与负面情感词库中的分词相匹配,或者能够与否定情感词库中的分词相匹配,则可将该任一分词的情感类型分别确定为正面分词、负面分词、否定分词。
S06,基于待分析证券研报中的预测类分句中各分词的情感类型,利用预置评分规则对待分析证券研报中的各预测类分句进行评分。
在确定了预测类分句中各分词的情感类型后,则可基于各分词的情感类型确定其所属各分句的情感趋势,在本实施例中,可以智能化评分的方式对各预测类分句的情感趋势进行评价,并可将所得评分应用于后续步骤以计算得到证券研报的整体情感分数。
在具体实现时,可先统计待分析证券研报中每个预测类分句中的正面分词、负面分词的初始数量(由于该数量可能会被调整,因此,在此处称为初始数量),和否定分词的数量。
以一个预测类分句为例,比如可在统计出该分句的正面分词、负面分词的初始数量(比如分别为3和2)后,判断否定分词的数量是否为奇数。
如果否定分词的数量为奇数(比如,否定分词的数量为1个,为“很难”),则可进一步判断该奇数个否定分词前面相邻的或后面相邻的是正面分词还是负面分词。
如果该奇数个否定分词前面相邻的或后面相邻的是正面分词(比如“领先大市”),则将该否定分词与该正面分词相结合表达的是负面的意思,此时,需要将该正面分词的初始数量减一(即3-1=2)并将该负面分词的初始数量加一(即2+1=3),以分别作为调整后的正面分词数量及负面分词数量。
如果该奇数个否定分词前面相邻的或后面相邻的是负面分词(比如“下跌”),则该否定分词与该负面分词相结合表达的是正面的意思,此时,需要将该负面分词的初始数量减一(即2-1=1)并将该正面分词的初始数量加一(即3+1=4),以分别作为调整后的负面分词数量及正面分词数量。
以上述奇数个否定分词后面相邻的是负面分词的情况为例,在确定了调整后的正面分词数量及负面分词数量后,可将该预测类分句中正面分词数量与负面分词数量的差(即4-1=3),除以正面分词数量与负面分词数量的和(即4+1=5),以得到对该预测类分句的评分(即3/5=0.6)。
通常在证券研报中,预测类分句的情感趋势与证券研报整体的情感趋势是息息相关的,因此,可基于各预测类分句的评分在后续步骤中得到证券研报的整体情感趋势。
S07,基于待分析证券研报中的各预测类分句的评分,计算得到待分析证券研报的整体情感分数。
在本实施例中,待分析证券研报中的各预测类分句的评分包括正分和负分,分别对应正面预测类分句和负面预测类分句。
在S06计算得到待分析证券研报中的各预测类分句的评分后,可以对该评分进行赋权累加计算。
具体的,可分别计算待分析证券研报中的所有正面预测类分句的平均分,以及所有负面预测类分句的平均分,由于在实际情况中,绝大多数证券研报都是偏向正面的观点,因此,在本方案中,我们对负面预测类分句赋予更高的权重,比如可设置为正面预测类分句的二倍。
具体计算时,可将所有正面预测类分句的平均分与所有负面预测类分句的平均分的二倍进行求和计算,以得到该待分析证券研报的整体情感分数,具体可通过如下公式进行计算:
整体情感分数=所有正面预测类分句的平均分+(所有负面预测类分句的平均分×2)。
S08,将待分析证券研报的整体情感分数与预设分数阈值进行比对,并根据比对结果获取待分析证券研报的情感分析结果。
理论上,该预设分数阈值可设置为0,但考虑到在实际情况中,大多数证券研报都是偏向正面的观点,因此,在本实施例中,该预设分数阈值可设置为包括第一预设分数阈值 和第二预设分数阈值,且第一预设分数阈值小于第二预设分数阈值,比如可分别设置为0和0.2。
在具体实现时,可将整体情感分数低于第一预设分数阈值(也就是低于0)的待分析证券研报的情感分析结果确定为看空;将整体情感分数介于第一预设分数阈值与第二预设分数阈值之间(也就是在0至0.2之间)的待分析证券研报的情感分析结果确定为看平;将整体情感分数高于第二预设分数阈值(也就是高于0.2)的待分析证券投资研报的情感分析结果确定为看多(也称为看涨)。
以此,可通过将客观的评分结果与预定指标相比对,以得到待分析证券研报的情感分析结果,从而可保证该情感分析结果的客观性及准确性。
根据本实施例的各个实施方式,可预先对大量证券研报中的分词进行提取以生成包括所需情感类型词库的情感词典,基于此,可先将待分析证券研报进行分句以及分词处理,然后通过将得到的各分词与情感词典匹配的方式先确定出预测类分句再确定出预测类分句中各分词的情感类型,接下来基于预测类分句中各分词的情感类型并利用预置评分规则对各预测类分句进行评分,并可基于评分结果计算得到待分析证券研报的整体情感分数,最后根据待分析证券研报的整体情感分数与预置分数阈值的比对结果获得待分析证券研报的情感分析结果。通过本方案,可基于大数据分析及智能化评分的方式实现对待分析证券研报的情感分析,不但可大大节省人力,而且可提高分析效率及分析结果的准确率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
实施例2
基于上述实施例1中提供的利用大数据的证券研报情感分析方法,本实施例中提供一种利用大数据的证券研报情感分析装置,具体地,图2至3示出了该利用大数据的证券研报情感分析装置的可选的结构框图,该利用大数据的证券研报情感分析装置被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本申请。本申请所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合描述利用大数据的证券研报情感分析装置在存储介质中的执行过程,以下描述将具体介绍本实施例各程序模块的功能。
如图2所示,该利用大数据的证券研报情感分析装置20可包括:
接收模块21,可用于接收输入的待分析证券研报;
分句模块22,可用于对待分析证券研报进行分句处理,得到待分析证券研报中的各分句;
分词模块23,可用于对待分析证券研报中的各分句进行分词处理,得到待分析证券研报中的各分词;
预测类分句确定模块24,可用于基于待分析证券研报中的各分词,利用预先建立的情感词典确定待分析证券研报中的预测类分句;
情感类型确定模块25,可用于根据所述情感词典确定待分析证券研报中的预测类分句中各分词的情感类型;
评分模块26,可用于基于待分析证券研报中的预测类分句中各分词的情感类型,利用预置评分规则对待分析证券研报中的各预测类分句进行评分;
计算模块27,可用于基于待分析证券研报中的各预测类分句的评分,计算得到待分析证券研报的整体情感分数;
情感分析结果获取模块28,可用于将待分析证券研报的整体情感分数与预设分数阈值进行比对,并根据比对结果获取待分析证券研报的情感分析结果。
在本实施例中,建立情感词典,可包括如下步骤:
步骤110,对预置篇数的证券研报进行分句处理,得到证券研报中的各第一分句;
步骤120,对各第一分句进行分词处理,得到证券研报中的各第一分词;
步骤130,从所有第一分词中提取用于表达正面情感的分词、用于表达负面情感的分词、用于表达否定情感的分词及用于表达预测的分词;
步骤140,根据提取结果分别生成正面情感词库、负面情感词库、否定情感词库及预测类词库;
步骤150,基于正面情感词库、负面情感词库、否定情感词库及预测类词库建立情感词典。
进一步的,预测类分句确定模块24,可具体用于:
将待分析证券研报中的各分词与所述情感词典中预测类词库中的分词进行匹配;
若待分析证券研报中的任一分词能够与所述情感词典中预测类词库中的分词相匹配,则将该任一分词所属的分句确定为预测类分句。
进一步的,情感类型确定模块25,可具体用于:
将待分析证券研报中的预测类分句中的各分词分别与所述情感词典中正面情感词库、负面情感词库、否定情感词库中的分词进行匹配;
若待分析证券研报中的任一分词能够与正面情感词库、负面情感词库或者否定情感词库中的分词相匹配,则将该任一分词的情感类型确定为正面分词、负面分词或者否定分词。
在具体实现时,参看图3所示,评分模块26,可具体包括:
统计单元261,可用于统计待分析证券研报中每个预测类分句中的正面分词、负面分词的初始数量及否定分词的数量;
第一判断单元262,可用于判断否定分词的数量是否为奇数;
第二判断单元263,可用于当第一判断单元262的判断结果为是时,则判断奇数个否定分词前面或后面相邻的是正面分词还是负面分词;
分词数量调整单元264,可用于当奇数个否定分词前面或后面相邻的是正面分词时,则将正面分词的初始数量减一并将负面分词的初始数量加一,以分别作为调整后的正面分词数量及负面分词数量;当奇数个否定分词前面或后面相邻的是负面分词时,则将负面分词的初始数量减一并将正面分词的初始数量加一,以分别作为调整后的负面分词数量及正面分词数量;
评分单元265,可用于将待分析证券研报中的各预测类分句中正面分词数量与负面分词数量的差除以正面分词数量与负面分词数量的和,以得到待分析证券研报中的各预测类分句的评分。
在具体实现时,待分析证券研报中的各预测类分句的评分包括正分和负分,分别对应正面预测类分句和负面预测类分句。
基于此,计算模块27,可具体用于:
分别计算待分析证券研报中的所有正面预测类分句的平均分及所有负面预测类分句的平均分;
将待分析证券研报中的所有正面预测类分句的平均分与所有负面预测类分句的平均分的二倍进行求和计算,以得到待分析证券研报的整体情感分数。
进一步的,预设分数阈值可包括第一预设分数阈值和第二预设分数阈值,第一预设分数阈值小于第二预设分数阈值。
基于此,情感分析结果获取模块28,可具体用于:
将整体情感分数低于第一预设分数阈值、介于第一预设分数阈值与第二预设分数阈值之间、高于第二预设分数阈值的待分析证券投资研报的情感分析结果,分别确定为看空、看平、看多。
关于上述实施例中的装置,其中各个单元、模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
通过本实施例的各个实施方式,可预先对大量证券研报中的分词进行提取以生成包括所需情感类型词库的情感词典,基于此,可先将待分析证券研报进行分句以及分词处理,然后通过将得到的各分词与情感词典匹配的方式先确定出预测类分句再确定出预测类分句中各分词的情感类型,接下来基于预测类分句中各分词的情感类型并利用预置评分规则对各预测类分句进行评分,并可基于评分结果计算得到待分析证券研报的整体情感分数,最后根据待分析证券研报的整体情感分数与预置分数阈值的比对结果获得待分析证券研报的情感分析结果。通过本方案,可基于大数据分析及智能化评分的方式实现对待分析证券研报的情感分析,不但可大大节省人力,而且可提高分析效率及分析结果的准确率。
实施例3
本实施例还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图4所示,本实施例的计算机设备40至少包括但不限于:可通过系统总线相互通信连接的存储器41、处理器42,如图4所示。需要指出的是,图4仅示出了具有组件41-42的计算机设备40,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器41(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器41可以是计算机设备40的内部存储单元,例如该计算机设备40的硬盘或内存。在另一些实施例中,存储器41也可以是计算机设备40的外部存储设备,例如该计算机设备40上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器41还可以既包括计算机设备40的内部存储单元也包括其外部存储设备。本实施例中,存储器41通常用于存储安装于计算机设备40的操作系统和各类应用软件,例如实施例2的利用大数据的证券研报情感分析装置的程序代码等。此外,存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制计算机设备40的总体操作。本实施例中,处理器42用于运行存储器41中存储的程序代码或者处理数据,例如利用大数据的证券研报情感分析装置等。
实施例4
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于利用大数据的证券研报情感分析装置,被处理器执行时实现实施例1的利用大数据的证券研报情感分析方法。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (20)

  1. 一种利用大数据的证券研报情感分析方法,其特征在于,包括如下步骤:
    S01,接收输入的待分析证券研报;
    S02,对待分析证券研报进行分句处理,得到待分析证券研报中的各分句;
    S03,对待分析证券研报中的各分句进行分词处理,得到待分析证券研报中的各分词;
    S04,基于待分析证券研报中的各分词,利用预先建立的情感词典确定待分析证券研报中的预测类分句;
    S05,根据所述情感词典确定待分析证券研报中的预测类分句中各分词的情感类型;
    S06,基于待分析证券研报中的预测类分句中各分词的情感类型,利用预置评分规则对待分析证券研报中的各预测类分句进行评分;
    S07,基于待分析证券研报中的各预测类分句的评分,计算得到待分析证券研报的整体情感分数;
    S08,将待分析证券研报的整体情感分数与预设分数阈值进行比对,并根据比对结果获取待分析证券研报的情感分析结果。
  2. 根据权利要求1所述的利用大数据的证券研报情感分析方法,其特征在于,建立所述情感词典,包括如下步骤:
    步骤110,对预置篇数的证券研报进行分句处理,得到证券研报中的各第一分句;
    步骤120,对各第一分句进行分词处理,得到证券研报中的各第一分词;
    步骤130,从所有第一分词中提取用于表达正面情感的分词、用于表达负面情感的分词、用于表达否定情感的分词及用于表达预测的分词;
    步骤140,根据提取结果分别生成正面情感词库、负面情感词库、否定情感词库及预测类词库;
    步骤150,基于正面情感词库、负面情感词库、否定情感词库及预测类词库建立所述情感词典。
  3. 根据权利要求2所述的利用大数据的证券研报情感分析方法,其特征在于,S04基于待分析证券研报中的各分词,利用预先建立的情感词典确定待分析证券研报中的预测类分句,包括:
    将待分析证券研报中的各分词与所述情感词典中预测类词库中的分词进行匹配;
    若待分析证券研报中的任一分词能够与所述情感词典中预测类词库中的分词相匹配,则将该任一分词所属的分句确定为预测类分句。
  4. 根据权利要求2所述的利用大数据的证券研报情感分析方法,其特征在于,S05根据所述情感词典确定待分析证券研报中的预测类分句中各分词的情感类型,包括:
    将待分析证券研报中的预测类分句中的各分词分别与所述情感词典中正面情感词库、负面情感词库、否定情感词库中的分词进行匹配;
    若待分析证券研报中的任一分词能够与正面情感词库、负面情感词库或者否定情感词库中的分词相匹配,则将该任一分词的情感类型确定为正面分词、负面分词或者否定分词。
  5. 根据权利要求4所述的利用大数据的证券研报情感分析方法,其特征在于,S06基于待分析证券研报中的预测类分句中各分词的情感类型,利用预置评分规则对待分析证券研报中的各预测类分句进行评分,包括:
    统计待分析证券研报中每个预测类分句中的正面分词、负面分词的初始数量及否定分词的数量;
    判断否定分词的数量是否为奇数;
    若是,则判断奇数个否定分词前面或后面相邻的是正面分词还是负面分词;
    若奇数个否定分词前面或后面相邻的是正面分词,则将正面分词的初始数量减一并将 负面分词的初始数量加一,以分别作为调整后的正面分词数量及负面分词数量;若奇数个否定分词前面或后面相邻的是负面分词,则将负面分词的初始数量减一并将正面分词的初始数量加一,以分别作为调整后的负面分词数量及正面分词数量;
    将待分析证券研报中的各预测类分句中正面分词数量与负面分词数量的差除以正面分词数量与负面分词数量的和,以得到待分析证券研报中的各预测类分句的评分。
  6. 根据权利要求1所述的利用大数据的证券研报情感分析方法,其特征在于,待分析证券研报中的各预测类分句的评分包括正分和负分,分别对应正面预测类分句和负面预测类分句;
    S07基于待分析证券研报中的各预测类分句的评分,计算得到待分析证券研报的整体情感分数,包括:
    分别计算待分析证券研报中的所有正面预测类分句的平均分及所有负面预测类分句的平均分;
    将待分析证券研报中的所有正面预测类分句的平均分与所有负面预测类分句的平均分的二倍进行求和计算,以得到待分析证券研报的整体情感分数。
  7. 根据权利要求1所述的利用大数据的证券研报情感分析方法,其特征在于,所述预设分数阈值包括第一预设分数阈值和第二预设分数阈值,第一预设分数阈值小于第二预设分数阈值;
    S08将待分析证券研报的整体情感分数与预设分数阈值进行比对,并根据比对结果获取待分析证券研报的情感分析结果,包括:
    将整体情感分数低于第一预设分数阈值、介于第一预设分数阈值与第二预设分数阈值之间、高于第二预设分数阈值的待分析证券投资研报的情感分析结果,分别确定为看空、看平、看多。
  8. 一种利用大数据的证券研报情感分析装置,其特征在于,包括:
    接收模块,用于接收输入的待分析证券研报;
    分句模块,用于对待分析证券研报进行分句处理,得到待分析证券研报中的各分句;
    分词模块,用于对待分析证券研报中的各分句进行分词处理,得到待分析证券研报中的各分词;
    预测类分句确定模块,用于基于待分析证券研报中的各分词,利用预先建立的情感词典确定待分析证券研报中的预测类分句;
    情感类型确定模块,用于根据所述情感词典确定待分析证券研报中的预测类分句中各分词的情感类型;
    评分模块,用于基于待分析证券研报中的各预测类分句中各分词的情感类型,利用预置评分规则对待分析证券研报中的各预测类分句进行评分;
    计算模块,用于基于待分析证券研报中的各预测类分句的评分,计算得到待分析证券研报的整体情感分数;
    情感分析结果获取模块,用于将待分析证券研报的整体情感分数与预设分数阈值进行比对,并根据比对结果获取待分析证券研报的情感分析结果。
  9. 一种计算机设备,所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现利用大数据的证券研报情感分析方法的以下步骤:
    S01,接收输入的待分析证券研报;
    S02,对待分析证券研报进行分句处理,得到待分析证券研报中的各分句;
    S03,对待分析证券研报中的各分句进行分词处理,得到待分析证券研报中的各分词;
    S04,基于待分析证券研报中的各分词,利用预先建立的情感词典确定待分析证券研报中的预测类分句;
    S05,根据所述情感词典确定待分析证券研报中的预测类分句中各分词的情感类型;
    S06,基于待分析证券研报中的预测类分句中各分词的情感类型,利用预置评分规则对待分析证券研报中的各预测类分句进行评分;
    S07,基于待分析证券研报中的各预测类分句的评分,计算得到待分析证券研报的整体情感分数;
    S08,将待分析证券研报的整体情感分数与预设分数阈值进行比对,并根据比对结果获取待分析证券研报的情感分析结果。
  10. 根据权利要求9所述的计算机设备,其特征在于,建立所述情感词典,包括如下步骤:
    步骤110,对预置篇数的证券研报进行分句处理,得到证券研报中的各第一分句;
    步骤120,对各第一分句进行分词处理,得到证券研报中的各第一分词;
    步骤130,从所有第一分词中提取用于表达正面情感的分词、用于表达负面情感的分词、用于表达否定情感的分词及用于表达预测的分词;
    步骤140,根据提取结果分别生成正面情感词库、负面情感词库、否定情感词库及预测类词库;
    步骤150,基于正面情感词库、负面情感词库、否定情感词库及预测类词库建立所述情感词典。
  11. 根据权利要求10所述的计算机设备,其特征在于,S05根据所述情感词典确定待分析证券研报中的预测类分句中各分词的情感类型,包括:
    将待分析证券研报中的预测类分句中的各分词分别与所述情感词典中正面情感词库、负面情感词库、否定情感词库中的分词进行匹配;
    若待分析证券研报中的任一分词能够与正面情感词库、负面情感词库或者否定情感词库中的分词相匹配,则将该任一分词的情感类型确定为正面分词、负面分词或者否定分词。
  12. 根据权利要求11所述的计算机设备,其特征在于,S06基于待分析证券研报中的预测类分句中各分词的情感类型,利用预置评分规则对待分析证券研报中的各预测类分句进行评分,包括:
    统计待分析证券研报中每个预测类分句中的正面分词、负面分词的初始数量及否定分词的数量;
    判断否定分词的数量是否为奇数;
    若是,则判断奇数个否定分词前面或后面相邻的是正面分词还是负面分词;
    若奇数个否定分词前面或后面相邻的是正面分词,则将正面分词的初始数量减一并将负面分词的初始数量加一,以分别作为调整后的正面分词数量及负面分词数量;若奇数个否定分词前面或后面相邻的是负面分词,则将负面分词的初始数量减一并将正面分词的初始数量加一,以分别作为调整后的负面分词数量及正面分词数量;
    将待分析证券研报中的各预测类分句中正面分词数量与负面分词数量的差除以正面分词数量与负面分词数量的和,以得到待分析证券研报中的各预测类分句的评分。
  13. 根据权利要求9所述的计算机设备,其特征在于,待分析证券研报中的各预测类分句的评分包括正分和负分,分别对应正面预测类分句和负面预测类分句;
    S07基于待分析证券研报中的各预测类分句的评分,计算得到待分析证券研报的整体情感分数,包括:
    分别计算待分析证券研报中的所有正面预测类分句的平均分及所有负面预测类分句的平均分;
    将待分析证券研报中的所有正面预测类分句的平均分与所有负面预测类分句的平均分的二倍进行求和计算,以得到待分析证券研报的整体情感分数。
  14. 根据权利要求9所述的计算机设备,其特征在于,所述预设分数阈值包括第一预设分数阈值和第二预设分数阈值,第一预设分数阈值小于第二预设分数阈值;
    S08将待分析证券研报的整体情感分数与预设分数阈值进行比对,并根据比对结果获 取待分析证券研报的情感分析结果,包括:
    将整体情感分数低于第一预设分数阈值、介于第一预设分数阈值与第二预设分数阈值之间、高于第二预设分数阈值的待分析证券投资研报的情感分析结果,分别确定为看空、看平、看多。
  15. 一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述程序被处理器执行时实现利用大数据的证券研报情感分析方法的以下步骤:
    S01,接收输入的待分析证券研报;
    S02,对待分析证券研报进行分句处理,得到待分析证券研报中的各分句;
    S03,对待分析证券研报中的各分句进行分词处理,得到待分析证券研报中的各分词;
    S04,基于待分析证券研报中的各分词,利用预先建立的情感词典确定待分析证券研报中的预测类分句;
    S05,根据所述情感词典确定待分析证券研报中的预测类分句中各分词的情感类型;
    S06,基于待分析证券研报中的预测类分句中各分词的情感类型,利用预置评分规则对待分析证券研报中的各预测类分句进行评分;
    S07,基于待分析证券研报中的各预测类分句的评分,计算得到待分析证券研报的整体情感分数;
    S08,将待分析证券研报的整体情感分数与预设分数阈值进行比对,并根据比对结果获取待分析证券研报的情感分析结果。
  16. 根据权利要求15所述的计算机可读存储介质,其特征在于,建立所述情感词典,包括如下步骤:
    步骤110,对预置篇数的证券研报进行分句处理,得到证券研报中的各第一分句;
    步骤120,对各第一分句进行分词处理,得到证券研报中的各第一分词;
    步骤130,从所有第一分词中提取用于表达正面情感的分词、用于表达负面情感的分词、用于表达否定情感的分词及用于表达预测的分词;
    步骤140,根据提取结果分别生成正面情感词库、负面情感词库、否定情感词库及预测类词库;
    步骤150,基于正面情感词库、负面情感词库、否定情感词库及预测类词库建立所述情感词典。
  17. 根据权利要求16所述的计算机可读存储介质,其特征在于,S05根据所述情感词典确定待分析证券研报中的预测类分句中各分词的情感类型,包括:
    将待分析证券研报中的预测类分句中的各分词分别与所述情感词典中正面情感词库、负面情感词库、否定情感词库中的分词进行匹配;
    若待分析证券研报中的任一分词能够与正面情感词库、负面情感词库或者否定情感词库中的分词相匹配,则将该任一分词的情感类型确定为正面分词、负面分词或者否定分词。
  18. 根据权利要求17所述的计算机可读存储介质,其特征在于,S06基于待分析证券研报中的预测类分句中各分词的情感类型,利用预置评分规则对待分析证券研报中的各预测类分句进行评分,包括:
    统计待分析证券研报中每个预测类分句中的正面分词、负面分词的初始数量及否定分词的数量;
    判断否定分词的数量是否为奇数;
    若是,则判断奇数个否定分词前面或后面相邻的是正面分词还是负面分词;
    若奇数个否定分词前面或后面相邻的是正面分词,则将正面分词的初始数量减一并将负面分词的初始数量加一,以分别作为调整后的正面分词数量及负面分词数量;若奇数个否定分词前面或后面相邻的是负面分词,则将负面分词的初始数量减一并将正面分词的初始数量加一,以分别作为调整后的负面分词数量及正面分词数量;
    将待分析证券研报中的各预测类分句中正面分词数量与负面分词数量的差除以正面分 词数量与负面分词数量的和,以得到待分析证券研报中的各预测类分句的评分。
  19. 根据权利要求15所述的计算机可读存储介质,其特征在于,待分析证券研报中的各预测类分句的评分包括正分和负分,分别对应正面预测类分句和负面预测类分句;
    S07基于待分析证券研报中的各预测类分句的评分,计算得到待分析证券研报的整体情感分数,包括:
    分别计算待分析证券研报中的所有正面预测类分句的平均分及所有负面预测类分句的平均分;
    将待分析证券研报中的所有正面预测类分句的平均分与所有负面预测类分句的平均分的二倍进行求和计算,以得到待分析证券研报的整体情感分数。
  20. 根据权利要求15所述的计算机可读存储介质,其特征在于,所述预设分数阈值包括第一预设分数阈值和第二预设分数阈值,第一预设分数阈值小于第二预设分数阈值;
    S08将待分析证券研报的整体情感分数与预设分数阈值进行比对,并根据比对结果获取待分析证券研报的情感分析结果,包括:
    将整体情感分数低于第一预设分数阈值、介于第一预设分数阈值与第二预设分数阈值之间、高于第二预设分数阈值的待分析证券投资研报的情感分析结果,分别确定为看空、看平、看多。
PCT/CN2019/070291 2018-10-22 2019-01-03 利用大数据的证券研报情感分析方法、装置及计算机设备 WO2020082612A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811228240.1 2018-10-22
CN201811228240.1A CN109460550A (zh) 2018-10-22 2018-10-22 利用大数据的证券研报情感分析方法、装置及计算机设备

Publications (1)

Publication Number Publication Date
WO2020082612A1 true WO2020082612A1 (zh) 2020-04-30

Family

ID=65608037

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/070291 WO2020082612A1 (zh) 2018-10-22 2019-01-03 利用大数据的证券研报情感分析方法、装置及计算机设备

Country Status (2)

Country Link
CN (1) CN109460550A (zh)
WO (1) WO2020082612A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110295B (zh) * 2019-04-04 2023-10-20 平安科技(深圳)有限公司 大样本研报信息提取方法、装置、设备及存储介质
CN118568522A (zh) * 2024-08-02 2024-08-30 潍坊学院 基于大数据技术的数字传媒管理系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970864A (zh) * 2014-05-08 2014-08-06 清华大学 基于微博文本的情绪分类和情绪成分分析方法及系统
US20140343923A1 (en) * 2013-05-16 2014-11-20 Educational Testing Service Systems and Methods for Assessing Constructed Recommendations
CN108090040A (zh) * 2016-11-23 2018-05-29 北京国双科技有限公司 一种文本信息分类方法及系统
CN108629693A (zh) * 2018-05-08 2018-10-09 平安科技(深圳)有限公司 自动生成投资建议的方法、装置、计算机设备和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060242040A1 (en) * 2005-04-20 2006-10-26 Aim Holdings Llc Method and system for conducting sentiment analysis for securities research
CN108062300A (zh) * 2016-11-08 2018-05-22 中移(苏州)软件技术有限公司 一种基于中文文本进行情感倾向分析的方法及装置
CN107767273B (zh) * 2017-09-05 2021-08-31 平安科技(深圳)有限公司 基于社交数据的资产配置方法、电子装置及介质
CN107885883A (zh) * 2017-12-01 2018-04-06 北京国信宏数科技有限公司 一种基于社会媒体的宏观经济领域情感分析方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140343923A1 (en) * 2013-05-16 2014-11-20 Educational Testing Service Systems and Methods for Assessing Constructed Recommendations
CN103970864A (zh) * 2014-05-08 2014-08-06 清华大学 基于微博文本的情绪分类和情绪成分分析方法及系统
CN108090040A (zh) * 2016-11-23 2018-05-29 北京国双科技有限公司 一种文本信息分类方法及系统
CN108629693A (zh) * 2018-05-08 2018-10-09 平安科技(深圳)有限公司 自动生成投资建议的方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN109460550A (zh) 2019-03-12

Similar Documents

Publication Publication Date Title
CN109359175B (zh) 电子装置、诉讼数据处理的方法及存储介质
WO2020258502A1 (zh) 文本分析方法、装置、计算机装置及存储介质
WO2019174132A1 (zh) 数据处理方法、服务器及计算机存储介质
Sehgal et al. Sops: stock prediction using web sentiment
WO2021051517A1 (zh) 基于卷积神经网络的信息检索方法、及其相关设备
WO2020259280A1 (zh) 日志管理方法、装置、网络设备和可读存储介质
CN110705286A (zh) 一种基于评论信息的数据处理方法及装置
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
US20130006611A1 (en) Method and system for extracting shadow entities from emails
CN111309910A (zh) 文本信息挖掘方法及装置
CN102591988A (zh) 基于语义图的短文本分类方法
WO2020082609A1 (zh) 利用深度学习模型的证券研报分析方法及装置
CN112967144B (zh) 一种金融信用风险事件抽取方法、可读存储介质及设备
CN110674296B (zh) 一种基于关键词的资讯摘要提取方法及系统
CN107515849A (zh) 一种成词判定模型生成方法、新词发现方法及装置
CN104850617A (zh) 短文本处理方法及装置
WO2019041528A1 (zh) 新闻情感方向判断方法、电子设备及计算机可读存储介质
WO2020082612A1 (zh) 利用大数据的证券研报情感分析方法、装置及计算机设备
CN111046660A (zh) 一种识别文本专业术语的方法及装置
TWI477987B (zh) 新聞文本情緒傾向分析方法
WO2020082613A1 (zh) 利用深度学习模型的证券研报核心观点提取方法及装置
CN109101487A (zh) 对话角色区分方法、装置、终端设备及存储介质
Salesky et al. Exploiting morphological, grammatical, and semantic correlates for improved text difficulty assessment
CN117745482A (zh) 合同条款的确定方法、装置、设备和介质
WO2014114117A1 (en) Language recognition based on vocabulary lists

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19876901

Country of ref document: EP

Kind code of ref document: A1