WO2021073118A1 - 基于强化学习的信息处理方法、装置、设备和存储介质 - Google Patents

基于强化学习的信息处理方法、装置、设备和存储介质 Download PDF

Info

Publication number
WO2021073118A1
WO2021073118A1 PCT/CN2020/093423 CN2020093423W WO2021073118A1 WO 2021073118 A1 WO2021073118 A1 WO 2021073118A1 CN 2020093423 W CN2020093423 W CN 2020093423W WO 2021073118 A1 WO2021073118 A1 WO 2021073118A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
scoring
actual value
preset
candidate
Prior art date
Application number
PCT/CN2020/093423
Other languages
English (en)
French (fr)
Inventor
刘卓
孙行智
赵惟
徐卓扬
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2021073118A1 publication Critical patent/WO2021073118A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Definitions

  • This application relates to the field of artificial intelligence data analysis technology, and in particular to a method, device, equipment, and storage medium for information processing based on reinforcement learning.
  • Computers can use reinforcement learning, deep learning, and neural networks to process information, so as to propose optimal solutions to solve complex problems.
  • the main purpose of this application is to provide an information processing method, device, equipment and storage medium based on reinforcement learning, which aims to solve the problem of processing information based on a single reinforcement learning model, and then obtain the final solution, which has low accuracy. Shortcomings such as slow convergence speed cannot be applied to technical problems in complex information processing scenarios.
  • An information processing method based on reinforcement learning includes the following steps:
  • the final score of the candidate plan data is obtained;
  • An information processing device based on reinforcement learning includes the following modules:
  • the data acquisition module is configured to acquire raw data and preprocess the raw data to obtain sample data;
  • the scoring weight module is configured to obtain the desired target value of the parameter in the sample data, extract the actual value of the parameter in the sample data, and incorporate the target value and the actual value into a preset reward and punishment function Perform calculations to obtain the scoring weight of the actual value;
  • the initial scoring module is configured to obtain multiple candidate plan data corresponding to the sample data, and after importing each candidate plan data and the scoring weight of the actual value into the reinforcement learning model for scoring for scoring, Obtain the initial score of each candidate data;
  • the final scoring module is configured to process the initial score according to a preset scoring strategy to obtain the final score of the candidate plan data
  • the target solution module is configured to filter each of the candidate solution data according to preset business logic, and use the highest final score item in the filtered candidate solution data as the target solution data of the original data.
  • a computer device including a memory and a processor, the memory stores computer readable instructions, and when the computer readable instructions are executed by the processor, the processor executes the above-mentioned information processing method based on reinforcement learning , Including the following steps:
  • the final score of the candidate plan data is obtained;
  • a storage medium storing computer-readable instructions, which when executed by one or more processors, cause one or more processors to execute the above-mentioned information processing method based on reinforcement learning, including the following steps:
  • the final score of the candidate plan data is obtained;
  • this application restricts the reinforcement learning process through the reward and punishment function, bonus strategy and business logic, thereby improving the speed of information processing by the reinforcement learning model used for scoring, and at the same time increasing the speed of information processing for scoring.
  • the accuracy of information processing by the reinforcement learning model is a simple formula for solving problems in the reinforcement learning model.
  • FIG. 1 is an overall flowchart of an information processing method based on reinforcement learning in an embodiment of this application
  • FIG. 2 is a schematic diagram of a process of generating data to be evaluated in an information processing method based on reinforcement learning in an embodiment of the present application
  • FIG. 3 is a schematic diagram of the initial scoring process in an information processing method based on reinforcement learning in an embodiment of the present application
  • Fig. 4 is a structural diagram of an information processing device based on reinforcement learning in an embodiment of the application.
  • Figure 1 is an overall flow chart of an information processing method based on reinforcement learning in an embodiment of this application.
  • An information processing method based on reinforcement learning includes the following steps:
  • the original data can be structured data or unstructured data.
  • the original data is medical visit data, including data for multiple patients, and multiple data for each patient.
  • the data of the second mode, a visit of a patient is a raw data.
  • Feature selection is based on medical knowledge. Specifically, it removes features (columns) that are not related to diabetes from the original data and retains related features.
  • Sample screening refers to the removal of some samples that cannot be used for training, including missing data on key features (such as no blood glucose data, no medication records, etc.), abnormal data (such as age over 120, glycosylated hemoglobin higher than 100%) Wait). After screening, the retained normal samples constitute the sample data.
  • the sample data can be queried from the database according to the specific type of the sample data to reach the desired target value of the parameter.
  • the target value can be divided into a short-term target value and a long-term target value, or take the diabetes detection in step S1 as an example, set the optimization target of the long-term and short-term curative effect based on knowledge, and then set the reward and punishment according to the target to guide the model Training.
  • the optimization goals of diabetes treatment in the present invention are:
  • Short-term target value the next time the glycosylated hemoglobin value (HbA1c, hereinafter referred to as glycosylation) reaches the standard ( ⁇ 7%) or drops.
  • the present invention uses the following formula to calculate rewards and punishments.
  • the idea of the formula is to make the medication plan that meets the next glycation standard get a positive score, make the next glycation decline plan get a positive score, make the last saccharification standard get a larger positive score, and make the last time without complications get a positive score; and vice versa. , Then both get the corresponding negative points.
  • r is the reward and punishment function, which is related to the glycosylated hemoglobin value of the current visit (actual value A): The glycosylated hemoglobin value for the next visit (actual value B): And the number of complications during the last visit (actual value C): related.
  • sgn in the formula refers to a sign function (when the argument is greater than or equal to 0, it is 1, and when it is less than 0, it is -1).
  • the reward and punishment function in this step is the scoring weight of the actual value.
  • the sample data in Table 1 shows the sample data of a 50-year-old diabetic patient. From this sample data, it can be known that the patient also suffers from high blood pressure. The factor of hypertension needs to be considered in the treatment plan. Therefore, alternatives can be obtained from the medical database through the keywords "hypertension" and "diabetes” as follows: (1) Insulin injection 3 times a day while taking ⁇ -blockers; (2) Insulin injection 2 a day At the same time, take captopril at the same time; (3) Oral glipizide and captopril and so on. The above schemes are all the original schemes obtained without other biochemical parameter evaluations.
  • the reinforcement learning model When importing each candidate data and the actual value of the scoring weight into the reinforcement learning model for scoring for scoring, the reinforcement learning model can be initialized first, and the model structure composed of two fully connected layers can be set. And randomly generate each parameter to be trained in the model. The data to be evaluated and the actual values are input into the reinforcement learning model, and the output is the initial score. And apply the loss function to the model through the back-propagation algorithm, which is used to adjust various parameters.
  • the bonus strategy can be sorted and summarized according to the suggestions in medical knowledge.
  • These points-adding strategies will be graded by authoritative medical guidelines or doctor groups. From B to D according to the grade, its authority, universality, and credibility gradually decrease.
  • a scoring strategy from the medical guide is: "diabetics have complications of kidney disease, it is recommended to use biguanides”, the characteristic words are “nephropathy”, “recommendations” and “biguanides”, according to these characteristics It can be seen from the words that the level corresponding to this bonus strategy is C, and the initial score is given an additional score corresponding to level C. For example, the initial score is 60, the score of level C is 20, and the final score is 80.,
  • business logic can also come from the collation and summary of medical knowledge.
  • one business logic is the explanation from the medical guide: "Sulfonylureas can easily cause hypoglycemia in patients, so patients at risk of hypoglycemia should not be prescribed sulfonylureas.” Therefore, according to the business logic corresponding to this business guide, when a case shows that the patient has had a hypoglycemic event in the past, the data of the medication plan containing sulfonylureas in the alternative plan data will be filtered out.
  • the reinforcement learning process is restricted by the reward and punishment function, the bonus strategy and the business logic, thereby improving the speed of information processing by the reinforcement learning model for scoring, and at the same time improving the information processing of the reinforcement learning model for scoring. Accuracy of processing.
  • FIG. 2 is a schematic diagram of the process of generating data to be evaluated in an information processing method based on reinforcement learning in an embodiment of the present application.
  • the S1 obtaining original data and preprocessing the original data
  • Get sample data including:
  • word embedding is also called a collective term for a set of language modeling and feature learning techniques in Word embedded natural language processing (NLP), in which words or phrases from the vocabulary are mapped to vectors of real numbers.
  • NLP Word embedded natural language processing
  • word embedding involves mathematical embedding from a one-dimensional space for each word to a continuous vector space with lower dimensions.
  • Word2vec word vector conversion model When performing word vector conversion, first classify the sample data and divide the sample data into numerical data and text data. For text data, the Word2vec word vector conversion model can be used to perform word vector conversion on the text data in the sample data. Get multiple data word vectors.
  • S12 Perform word vector conversion on the data word vector according to a preset screening strategy to obtain a strategy word vector
  • the screening strategy when the preset screening strategy is converted into word vectors, the screening strategy can be divided into several sub-segments according to the special symbols in the screening strategy, such as ",”, ",”, etc., and then each sub-segment can be divided into several sub-segments.
  • the segment performs word vector conversion.
  • the digits in the sample data can also be screened. Specifically, according to the position of the digit in the sample data, the text data adjacent to the digit is extracted, and according to the preset threshold corresponding to the text data, The abnormality of the number is judged, that is, if the number is greater than or less than the threshold, it is abnormal digital data and needs to be deleted.
  • the sample data is effectively screened through word vector conversion, thereby eliminating erroneous data and useless data in the sample data, thereby improving the efficiency of information processing.
  • the S2 obtains the target value of the parameter expected in the sample data, extracts the actual value of the parameter in the sample data, and enters the target value and the actual value into a preset Calculate in the reward and punishment function of, to obtain the scoring weight of the actual value, including:
  • the knowledge graph technology needs to be used when analyzing sample data.
  • information is divided into three forms: entity, relationship, and attribute.
  • entity relationship
  • attribute attribute
  • entity name information "glycated hemoglobin” in the sample data
  • all information about “glycated hemoglobin” can be extracted from the database, such as “glycated hemoglobin greater than 7%", “glycated hemoglobin not tested” and so on.
  • the target value can be determined to be 7% based on the position of relative words such as "greater than”, “equal to”, etc.
  • the target value and the actual value are entered into a preset reward and punishment function for calculation to obtain the score weight of the actual value, wherein the calculation formula of the score weight is:
  • r(S t+1 ) is the scoring weight of the t+1th actual value
  • a, b are the balance constants 0 ⁇ a ⁇ 1, 0 ⁇ b ⁇ 1
  • sgn() is the sign function
  • A is The target value
  • St is the t-th actual value
  • St+1 is the t+1-th actual value.
  • the target value to be achieved by the sample data is effectively determined through the knowledge extraction and the reward and punishment function, so that there is an accurate target when performing information processing.
  • FIG. 3 is a schematic diagram of the initial scoring process in an information processing method based on reinforcement learning in an embodiment of the present application.
  • the S3 is a combination of the candidate data and the actual value.
  • the initial score of each candidate data is obtained, including:
  • the parameters in the reinforcement learning model include the reward value, the contribution value and the maximum action value. If the function value of the reward and punishment function is greater than the reward value or the contribution value, the reward and punishment function value is used as the new reward value or contribution value. And according to the difference between the reward and punishment function value and the reward value or the contribution value, the reward weights of different parameters are obtained.
  • the state reward library is a pre-built set that stores state nodes and corresponding reward values. After receiving the training request, it obtains the current state of the reinforcement learning network, and extracts the characteristic data of the current state, and then uses the characteristic data of the current state. The contribution value of the current state is calculated, and then the current state is matched in the state reward library to obtain the reward value of the current state.
  • the state reward library is divided into n reward groups, corresponding to n special state reward values.
  • each reward group includes different state nodes, that is, different state values, and different state nodes correspond to different ranges of state values.
  • the difference between the contribution value of the real-time state and the state value of the state node is used as a parameter of the initial weight change, and the initial weight value is continuously adjusted to make the real-time state consistent with the state of the state node.
  • the data to be analyzed is scored through the reinforcement learning model, so that the candidate data can be quickly analyzed.
  • the process of processing the initial score according to a preset scoring strategy to obtain the final score of the candidate solution data includes:
  • the additional scoring function is:
  • r new is an additional rating
  • ⁇ match ⁇ is the number of data conforming alternative strategy points
  • d i is the i-th corresponding points rating policy
  • gi is in the i-th points strategy
  • the difference between the target value and the actual value, h is a constant;
  • the final score is obtained by adding the initial score and the additional score.
  • the sample data is complications of diabetes and kidney disease
  • the number of 20 data in the medication plan data of biguanides that meets the bonus strategy is 1, and the difference between the target value and the actual value is -1.
  • an effective judgment is made on whether the data to be analyzed conforms to the bonus strategy, so that the score of the preferred solution is improved, and the target solution data is obtained accurately.
  • the filtering each of the candidate solution data according to preset business logic includes:
  • the word segmentation device can segment the text data and the number data in the alternative plan data, and then package the text data to form a word segmentation set.
  • the word segmentation device used in this implementation may be a spark word segmentation device.
  • the sensitive word database there are multiple sensitive words stored in the sensitive word database, such as "kidney disease”, “heart disease”, “hypotension”, “azithromycin”, “ibuprofen”, etc., and the words in the word segmentation set are compared with the above-mentioned sensitive words. After the words are compared one by one, the sensitive words contained in the word segmentation set can be obtained.
  • the regular matching formula is a kind of logical formula for string manipulation, which is to form a "rule string" with some pre-defined specific characters and combinations of these specific characters.
  • the use of regular matching expressions can effectively determine the logical relationship between sensitive words. For example, the sensitive words “kidney disease” and “azithromycin” in a word segmentation set can be matched with "Yes”.
  • the comparison between the logical relationship of the sensitive words and the business logic can filter out inappropriate candidate data quickly and accurately.
  • the above describes an information processing method based on reinforcement learning in the present application, and the following describes an information processing device that executes the above reinforcement learning.
  • the structure diagram of an information processing device based on reinforcement learning as shown in FIG. 4 can be applied to information processing based on reinforcement learning.
  • the information processing apparatus based on reinforcement learning in the embodiment of the present application can implement the steps corresponding to the information processing method based on reinforcement learning executed in the embodiment corresponding to FIG. 1 above.
  • the functions implemented by the information processing device based on reinforcement learning can be implemented by hardware, or can be implemented by hardware executing corresponding software.
  • the hardware or software includes one or more modules corresponding to the above-mentioned functions, and the modules may be software and/or hardware.
  • an information processing device based on reinforcement learning is proposed, as shown in FIG. 4, which includes the following modules:
  • the data acquisition module is configured to acquire raw data and preprocess the raw data to obtain sample data;
  • the scoring weight module is configured to obtain the desired target value of the parameter in the sample data, extract the actual value of the parameter in the sample data, and incorporate the target value and the actual value into a preset reward and punishment function Perform calculations to obtain the scoring weight of the actual value;
  • the initial scoring module is configured to obtain multiple candidate plan data corresponding to the sample data, and after importing each candidate plan data and the scoring weight of the actual value into the reinforcement learning model for scoring for scoring, Obtain the initial score of each candidate data;
  • the final scoring module is configured to process the initial score according to a preset scoring strategy to obtain the final score of the candidate plan data
  • the target solution module is configured to filter each of the candidate solution data according to preset business logic, and use the highest final score item in the filtered candidate solution data as the target solution data of the original data.
  • the data collection module is further used for:
  • a computer device in one embodiment, includes a memory and a processor.
  • the memory stores computer-readable instructions.
  • the processor executes the foregoing embodiments. The steps of the information processing method based on reinforcement learning in.
  • a storage medium storing computer-readable instructions.
  • the computer-readable storage medium may be non-volatile or volatile.
  • the one or more processors execute the steps of the reinforcement learning-based information processing method in the foregoing embodiments.
  • the storage medium may be a non-volatile storage medium.
  • the program can be stored in a computer-readable storage medium, and the storage medium can include: Read only memory (ROM, Read Only Memory), random access memory (RAM, Random Access Memory), magnetic disk or optical disk, etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

一种基于强化学习的信息处理的方法、装置、设备和存储介质,属于人工智能的数据分析技术领域。所述方法包括:获取原始数据并对原始数据进行预处理,得到样本数据(S1);获取目标值,提取样本数据中的实际值,将目标值与实际值入参到预设的奖惩函数中进行计算,得到实际值的评分权重(S2);获取样本数据对应的多个备选方案数据,将各备选方案数据和实际值的评分权重导入到用于强化学习模型中进行评分后,得到各备选方案数据的初始评分(S3);根据预设的加分策略对初始评分进行处理后得到备选方案数据的最终评分(S4);根据预设的业务逻辑对各备选方案数据进行过滤,以过滤后的备选方案数据中最终评分最高项作为原始数据的目标方案数据(S5)。提升了信息处理的速度和准确性。

Description

基于强化学习的信息处理方法、装置、设备和存储介质
本申请要求于2019年10月18日提交中国专利局、申请号为201910991379.X,发明名称为“基于强化学习的信息处理的方法、装置、设备和存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及人工智能的数据分析技术领域,尤其涉及一种基于强化学习的信息处理的方法、装置、设备和存储介质。
背景技术
目前,人工智能已经被广泛应用于生产生活的各个领域,计算机可以利用强化学习、深度学习和神经网络等方式对信息进行处理,从而提出最优方案以解决复杂问题。
然而,发明人意识到单一的利用强化学习模型对信息进行处理,然后得到最终方案,存在着准确性低,收敛速度慢等缺点,无法应用到复杂信息处理场景。
技术问题
本申请的主要目的为提供一种基于强化学习的信息处理方法、装置、设备和存储介质,旨在解决针对单一的利用强化学习模型对信息进行处理,然后得到最终方案,存在着准确性低,收敛速度慢等缺点,无法应用到复杂信息处理场景的技术问题。
技术解决方案
基于此,针对单一的利用强化学习模型对信息进行处理,然后得到最终方案,存在着准确性低,收敛速度慢等缺点,无法应用到复杂信息处理场景的问题,提供一种基于强化学习的信息处理方法、装置、设备和存储介质。
一种基于强化学习的信息处理方法,包括如下步骤:
获取原始数据并对所述原始数据进行预处理,得到样本数据;
获取所述样本数据中达到参数期望的目标值,提取所述样本数据中参数的实际值,并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算,得到所述实际值的评分权重;
获取所述样本数据对应的多个备选方案数据,将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后,得到各所述备选方案数据的初始评分;
根据预设的加分策略对所述初始评分进行处理后得到所述备选方案数据的最终评分;
根据预设的业务逻辑对各所述备选方案数据进行过滤,并以过滤后的备选方案数据中最终评分最高项作为所述原始数据的目标方案数据。
一种基于强化学习的信息处理装置,包括如下模块:
数据采集模块,设置为获取原始数据并对所述原始数据进行预处理,得到样本数据;
评分权重模块,设置为获取所述样本数据中达到参数期望的目标值,提取所述样本数据中参数的实际值,并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算,得到所述实际值的评分权重;
初始评分模块,设置为获取所述样本数据对应的多个备选方案数据,将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后,得到各所述备选方案数据的初始评分;
最终评分模块,设置为根据预设的加分策略对所述初始评分进行处理后得到所述备选方案数据的最终评分;
目标方案模块,设置为根据预设的业务逻辑对各所述备选方案数据进行过滤,并以过滤后的备选方案数据中最终评分最高项作为所述原始数据的目标方案数据。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述基于强化学习的信息处理方法,包括如下步骤:
获取原始数据并对所述原始数据进行预处理,得到样本数据;
获取所述样本数据中达到参数期望的目标值,提取所述样本数据中参数的实际值,并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算,得到所述实际值的评分权重;
获取所述样本数据对应的多个备选方案数据,将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后,得到各所述备选方案数据的初始评分;
根据预设的加分策略对所述初始评分进行处理后得到所述备选方案数据的最终评分;
根据预设的业务逻辑对各所述备选方案数据进行过滤,并以过滤后的备选方案数据中最终评分最高项作为所述原始数据的目标方案数据。
一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述基于强化学习的信息处理方法,,包括如下步骤:
获取原始数据并对所述原始数据进行预处理,得到样本数据;
获取所述样本数据中达到参数期望的目标值,提取所述样本数据中参数的实际值,并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算,得到所述实际值的评分权重;
获取所述样本数据对应的多个备选方案数据,将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后,得到各所述备选方案数据的初始评分;
根据预设的加分策略对所述初始评分进行处理后得到所述备选方案数据的最终评分;
根据预设的业务逻辑对各所述备选方案数据进行过滤,并以过滤后的备选方案数据中最终评分最高项作为所述原始数据的目标方案数据。
有益效果
与现有机制相比,本申请通过奖惩函数、加分策略和业务逻辑对强化学习过程进行条件限制,从而提升了用于评分的强化学习模型进行信息处理的速度,同时提升了用于评分的强化学习模型进行信息处理的准确性。
附图说明
图1为本申请在一个实施例中的一种基于强化学习的信息处理方法的整体流程图;
图2为本申请在一个实施例中的一种基于强化学习的信息处理方法中的待评价数据生成过程示意图;
图3为本申请在一个实施例中的一种基于强化学习的信息处理方法中的初始评分过程示意图;
图4为本申请在一个实施例中的一种基于强化学习的信息处理装置的结构图。
本发明的最佳实施方式
图1为本申请在一个实施例中的一种基于强化学习的信息处理方法的整体流程图,一 种基于强化学习的信息处理方法,包括以下步骤:
S1、获取原始数据并对所述原始数据进行预处理,得到样本数据;
具体的,原始数据可以是结构化数据,也可以是非结构化数据,如在一个具体的应用场景中,所述原始数据为医疗访视数据,包括多个病人的数据,以及每个病人的多次方式的数据,一个病人的一次访视就是一个原始数据。
以糖尿病学的检查数据为例,原始数据详情见下表:
Figure PCTCN2020093423-appb-000001
在进行预处理时,主要包括特征选择和样本筛选。特征选择是根据医学知识进行的,具体而言就是从原始数据中去除与糖尿病无关的特征(列),保留有关的特征。而样本筛选是指去除一些不能够用于训练的样本,包括关键特征的数据缺失(例如没有血糖数据、没有用药记录等)、数据出现异常状况(例如年龄超过120岁,糖化血红蛋白高于100%等)。筛选后,保留下来的正常样本构成了样本数据。
S2、获取所述样本数据中达到参数期望的目标值,提取所述样本数据中参数的实际值,并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算,得到所述实际值的评分权重;
具体的,根据样本数据具体的类型从数据库中可以查询到样本数据中达到参数期望的目标值。其中,目标值可以分为短期目标值和长期目标值,还是以步骤S1中的糖尿病检测为例,根据知识设定长短期疗效的优化目标,接着根据目标设定奖励与惩罚,用于指导模型的训练。参考医学知识,本发明中糖尿病治疗的优化目标是:
a.短期目标值:下次糖化血红蛋白值(HbA1c,下面简称为糖化)达标(<7%)或者下降。
b.长期目标值:最后一次访视时,糖化达标,并且没有并发症。
根据上面的目标,本发明采用了下面的公式计算奖励与惩罚。公式的思路是:使得下次糖化达标的用药方案获得正分,使得下次糖化下降的方案获得正分,使得最后一次糖化达标得较大正分,使得最后一次无并发症得正分;而反之,则都获得对应的负分。
公式具体为:
Figure PCTCN2020093423-appb-000002
其中,r是奖惩函数,它与当次访视的糖化血红蛋白值(实际值A):
Figure PCTCN2020093423-appb-000003
下次访视的糖化血红蛋白值(实际值B):
Figure PCTCN2020093423-appb-000004
以及最后一次访视的并发症数量(实际值C):
Figure PCTCN2020093423-appb-000005
有关。a,b,c,d是平衡各种奖惩得分的系数。经过试验,本发明最终调整它们为a=2.5,b=0.8,c=20。另外,公式中的sgn指符号函数(自变量大于等于0时为1,小于0时为-1)。
其中,在本步骤中奖惩函数就为实际值的评分权重。
S3、获取所述样本数据对应的多个备选方案数据,将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后,得到各所述备选方案数据的初始评分;
具体的,如表一中的样本数据,展示了一位年龄为50岁的糖尿病患者的样本数据,从这个样本数据中可以得知,该名患者同时患有高血压,那么对于该名患者的治疗方案中就需要考虑高血压这个因素。因此,备选方案可以通过关键词“高血压”和“糖尿病”从医疗数据库中得到如下:(1)每日注射胰岛素3次,同时服用β-阻滞剂;(2)每日注射胰岛素2次,同时服用卡托普利;(3)口服格列吡嗪和卡托普利等等。上述方案都是在没有进行其它生化参数评估时得到的原始方案。
在将各备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分时,可以先对强化学习模型进行初始化,设定两层全连接层构成的模型结构,并随机生成模型中待训练的各个参数。将待评价数据和各实际值输入强化学习模型,得到输出即初始评分。并应用损失函数通过反向传播的算法传递给模型,用于调整各个参数。
S4、根据预设的加分策略对初始评分进行处理后得到所述备选方案数据的最终评分;
具体的,以糖尿病检测为例,加分策略可以是根据医学知识中的建议整理和总结出的。这些加分策略会被医学权威指南或医生群体评价等级。依照等级从B到D,其权威性、普适性、可信性逐渐递减。
如,一条来自医学指南的加分策略是:“糖尿病人有肾病并发症,建议使用双胍类药”,这其中的特征词为“肾病”、“建议”和“双胍类药”,根据这些特征词可知,此条加分策略对应的等级为C,则给予初始评分以等级C对应的附加评分,如初始评分为60,等级C的分数为20,则最终评分为80.、
S5、根据预设的业务逻辑对各所述备选方案数据进行过滤,并以过滤后的备选方案数据中最终评分最高项作为所述原始数据的目标方案数据。
具体的,业务逻辑可以同样样来自于对医学知识的整理与总结。例如,一个业务逻辑为来自医学指南的说明:“磺脲类药易引起病人发生低血糖事件,因此不应该给有低血糖风险的病人开磺脲类药物”。因此根据此业务指南对应的业务逻辑,当病例中显示病人过往发生过低血糖事件时,备选方案数据中包含磺脲类的用药方案数据会被过滤排除。
本实施例,通过奖惩函数、加分策略和业务逻辑对强化学习过程进行条件限制,从而提升了用于评分的强化学习模型进行信息处理的速度,同时提升了用于评分的强化学习模型进行信息处理的准确性。
图2为本申请在一个实施例中的一种基于强化学习的信息处理方法中的待评价数据生成过程示意图,如图所示,所述S1、获取原始数据并对所述原始数据进行预处理,得到样本数据,包括:
S11、对所述原始数据中的文字数据进行词向量转换,得到多个数据词向量;
具体的,词向量(Word embedding),又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。
在进行词向量转换时,首先要对样本数据进行分类,将样本数据分为数值数据和文字数据,对于文字数据可以采用Word2vec词向量转换模型对样本数据中的文字数据进行词向量转化,转换后得到多个数据词向量。
S12、根据预设的筛选策略对所述数据词向量进行词向量转换,得到策略词向量;
具体的,在将预设的筛选策略进行词向量转换时,可以根据筛选策略中的特殊符号,如“,”、“、”等将所述筛选策略划分为数个子段,然后在将每一个子段进行词向量的转换。
S13、将各所述数据词向量和所述策略词向量进行乘积,得到多个词向量矩阵,计算各所述词向量矩阵的特征值,并根据所述特征值对所述文字数据进行处理后,得到所述样本数据。
具体的,在将所述数据词向量和所述策略词向量进行乘积前,需要将数据词向量和策略词向量进行降维,都降维到二维向量,再将两者进行乘积。
在进行筛选时,还可以对样本数据中数字进行筛选,具体的,根据数字在所述样本数据中的位置,抽取出所述数字临近的文字数据,根据所述文字数据对应的预设阈值,对所述数字的异常性进行判断,即所述数字大于或者小于阈值,则为异常数字数据,需要删除。
本实施例,通过词向量转换的方式对样本数据进行有效的筛选,从而剔除了样本数据中的错误数据和无用数据,从而提升了进行信息处理时的效率。
在一个实施例中,所述S2、获取所述样本数据中达到参数期望的目标值,提取所述样本数据中参数的实际值,并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算,得到所述实际值的评分权重,包括:
采用实体抽取技术抽取所述样本数据中的实体名称信息,并根据所述实体名称信息从预置数据库中提取出包含有所述实体名称信息的信息字段;
其中,在进行样本数据分析时,需要用到知识图谱技术,在知识图谱中,将信息分为实体、关系和属性三种形式。在进行目标值选取时需要利用知识抽取技术,以确定所述样本数据应该达到的目标值。还是以糖尿病的案例为例子,在上面的实施例中,7%就是一个预期目标。其通过在样本数据中的实体名称信息“糖化血红蛋白”,可以从数据库中提取有关“糖化血红蛋白”的所有信息如“糖化血红蛋白大于7%”、“糖化血红蛋白不测试”等等。
从所述信息字段中提取出所述目标值;
具体的,从信息字段中抽取出所有数值信息,然后将数值信息与预设的取值范围进行比较,若在所述取值范围内,则所述数值信息为所述目标值,否则不是所述目标值。如上一步骤中的例子,可以根据关系词,如“大于”、“等于”等的位置,确定“糖化血红蛋白”的目标值为7%。
将所述目标值和所述实际值入参到预设的奖惩函数进行计算,得到所述实际值的评分权重,其中,评分权重的计算公式为:
r(S t+1)=a[sgn(A-S t+1)]+b(S t-S t+1),
式子中,r(S t+1)为第t+1个实际值的评分权重,a,b为平衡常数0≤a≤1、0≤b≤1,sgn()为符号函数,A为目标值,S t为第t个实际值,S t+1为第t+1个实际值。
本实施例,通过知识抽取和奖惩函数有效的确定了样本数据所要达到的目标值,从而在进行信息处理时有了准确的目标。
图3为本申请在一个实施例中的一种基于强化学习的信息处理方法中的初始评分过程示意图,如图所示,所述S3、将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后,得到各所述备选方案数据的初始评分,包括:
S31、根据所述评分权重,生成所述强化学习模型中参数的初始奖励权重;
其中,强化学习模型中的参数有奖励值、贡献值和动作最大值,奖惩函数的函数值如果大于奖励值或者贡献值,则以所述奖惩函数值作为新的奖励值或者贡献值。并且根据奖惩函数值和奖励值或者贡献值的差值作为,得到不同参数的奖励权重。
S32、将各所述备选方案数据和所述实际值的评分权重导入到所述强化学习模型,获取所述强化学习模型的实时状态,将所述实时状态与状态库中的状态进行匹配,得到所述 实时状态的贡献值;
其中,状态奖励库为预先构建的存储了状态节点和对应奖励值的集合,在接收到训练请求之后,获取强化学习网络的当前状态,并提取当前状态的特征数据,通过该当前状态的特征数据计算得到当前状态的贡献值,然后,在状态奖励库中对当前状态进行匹配,得到当前状态的奖励值。状态奖励库分为n个奖励组,分别对应n个特殊状态的奖励值,数据的开头存储了奖励值组数n,数据库的结尾存储了一般状态的奖励值,即第(n+1)个奖励值,每一个奖励组都包括不同的状态节点,即不同状态值,不同的状态节点对应着不同范围的状态值。
S33、根据所述实时状态的贡献值,对所述初始奖励权重进行修正后,得到最终奖励权重;
具体的,实时状态的贡献值与状态节点的状态值的差值,作为初始权重改变的参数,不断对初始权重值进行调整,使实时状态和状态节点的状态相一致。
S34、根据所述最终奖励权重,对各所述备选方案数据进行评分后,得到各所述备选方案数据的初始评分。
本实施例,通过强化学习模型对待分析数据进行评分,从而能够快速的对备选方案数据进行分析。
在一个实施例中,所述根据预设的加分策略对所述初始评分进行处理后得到所述备选方案数据的最终评分,包括:
获取所述备选方案数据中符合所述加分策略且达到所述样本数据的参数期望的目标值以及所述样本数据中参数的实际值;
获取所述加分策略对应的预置等级分,并将所述目标值、所述实际值和所述等级分入参到附加评分函数进行计算,得到所述附加评分:
其中,所述附加评分函数为:
Figure PCTCN2020093423-appb-000006
式子中,r new为附加评分,{match}为备选方案数据符合加分策略的数量,d i为第i个加分策略对应的等级分,gi为在第i个加分策略下的目标值与实际值的差值,h为常数;
将所述初始评分和所述附加评分相加后得到所述最终评分。
具体的,如样本数据为糖尿病和肾病的并发症,则双胍类药的用药方案数据的20个数据中符合加分策略的数量为1,目标值和实际值的差值为-1,就可以计算出采用双胍类药治疗样本数据的附加分数为r_ new=-1*20*exp(-1)=-7.36。
本实施例,通过对待分析数据是否符合加分策略进行有效的判断,从而使优选的方案评分提升,进而准确的获得目标方案数据。
在一个实施例中,所述根据预设的业务逻辑对各所述备选方案数据进行过滤,包括:
采用预置分词器对所述备选方案数据进行分词,得到各方案数据对应的分词集;
其中,分词器可以将备选方案数据中的文字数据和数字数据进行分割,然后将文字数据进行打包形成分词集,本实施采用的分词器可以是spark分词器。
依次将所述分词集中的分词与预置敏感词库进行对比,输出所述备选方案数据对应的分词集中所包含的多个敏感词;
具体的,在敏感词库中存储有多个敏感词,如“肾病”、“心脏病”、“低血压”、“阿奇霉素”、“布洛芬”等等,将分词集中的文字与上述敏感词进行一一比对后,就可以得到分词集中所包含的敏感词。
采用预置正则匹配式,确定所述各敏感词在所述备选方案数据中的逻辑表述关系,并判断所述逻辑关系是否符合预设的业务逻辑;
其中,正则匹配式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”。应用正则匹配式可以对敏感词之间的逻辑关系进行有效的确定,如将一个分词集中的敏感词“肾病”和“阿奇霉素”进行正则匹配后为“是”。
若所述逻辑表述关系符合所述业务逻辑,则保留该备选方案数据,否则删除该备选方案数据。
本实施例,利用敏感词的逻辑关系与业务逻辑进行比较能过快速准确的过滤掉不合适的备选方案数据。
上述任一所对应的实施例或实施方式中所提及的技术特征也同样适用于本申请中的图4所对应的实施例,后续类似之处不再赘述。
以上对本申请中一种基于强化学习的信息处理方法进行说明,以下对执行上述基于强化学习的信息处理装置进行描述。
如图4所示的一种基于强化学习的信息处理装置的结构图,其可应用于基于强化学习的信息处理。本申请实施例中的基于强化学习的信息处理装置能够实现对应于上述图1所对应的实施例中所执行的基于强化学习的信息处理方法的步骤。基于强化学习的信息处理装置实现的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。
在一个实施例中,提出了一种基于强化学习的信息处理装置,如图4所示,包括如下模块:
数据采集模块,设置为获取原始数据并对所述原始数据进行预处理,得到样本数据;
评分权重模块,设置为获取所述样本数据中达到参数期望的目标值,提取所述样本数据中参数的实际值,并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算,得到所述实际值的评分权重;
初始评分模块,设置为获取所述样本数据对应的多个备选方案数据,将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后,得到各所述备选方案数据的初始评分;
最终评分模块,设置为根据预设的加分策略对所述初始评分进行处理后得到所述备选方案数据的最终评分;
目标方案模块,设置为根据预设的业务逻辑对各所述备选方案数据进行过滤,并以过滤后的备选方案数据中最终评分最高项作为所述原始数据的目标方案数据。
在其中一个实施例中,所述数据采集模块,还用于:
对所述原始数据中的文字数据进行词向量转换,得到多个数据词向量;
根据预设的筛选策略对所述数据词向量进行词向量转换,得到策略词向量;
将各所述数据词向量和所述策略词向量进行乘积,得到多个词向量矩阵,计算各所述词向量矩阵的特征值,并根据所述特征值对所述文字数据进行处理后,得到所述样本数据。
在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述基于强化学习的信息处理方法的步骤。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,计算机可读存储介质可以是非易失性,也可以是易失性。该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述各实施例中的所述基于强化学习的信息处理方法的步骤。其中,所述存储介质可以为非易失性存储介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请一些示例性实施例,其中描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (20)

  1. 一种基于强化学习的信息处理方法,其中,包括:
    获取原始数据并对所述原始数据进行预处理,得到样本数据;
    获取所述样本数据中达到参数期望的目标值,提取所述样本数据中参数的实际值,并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算,得到所述实际值的评分权重;
    获取所述样本数据对应的多个备选方案数据,将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后,得到各所述备选方案数据的初始评分;
    根据预设的加分策略对所述初始评分进行处理后得到所述备选方案数据的最终评分;
    根据预设的业务逻辑对各所述备选方案数据进行过滤,并以过滤后的备选方案数据中最终评分最高项作为所述原始数据的目标方案数据。
  2. 根据权利要求1所述的基于强化学习的信息处理方法,其中,所述获取原始数据并对所述原始数据进行预处理,得到样本数据,包括:
    对所述原始数据中的文字数据进行词向量转换,得到多个数据词向量;
    根据预设的筛选策略对所述数据词向量进行词向量转换,得到策略词向量;
    将各所述数据词向量和所述策略词向量进行乘积,得到多个词向量矩阵,计算各所述词向量矩阵的特征值,并根据所述特征值对所述文字数据进行处理后,得到所述样本数据。
  3. 根据权利要求1所述的基于强化学习的信息处理的方法,其中,所述获取所述样本数据中达到参数期望的目标值,提取所述样本数据中参数的实际值,并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算,得到所述实际值的评分权重,包括:
    采用实体抽取技术抽取所述样本数据中的实体名称信息,并根据所述实体名称信息从预置数据库中提取出包含有所述实体名称信息的信息字段;
    从所述信息字段中提取出所述目标值;
    将所述目标值和所述实际值入参到预设的奖惩函数进行计算,得到所述实际值的评分权重,其中,评分权重的计算公式为:
    r(S t+1)=a[sgn(A-S t+1)]+b(S t-S t+1),
    式子中,r(S t+1)为第t+1个实际值的评分权重,a,b为平衡常数0≤a≤1、0≤b≤1,sgn()为符号函数,A为目标值,S t为第t个实际值,S t+1为第t+1个实际值。
  4. 根据权利要求1所述的基于强化学习的信息处理方法,其中,所述将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后,得到各所述备选方案数据的初始评分,包括:
    根据所述评分权重,生成所述强化学习模型中参数的初始奖励权重;
    将各所述备选方案数据和所述实际值的评分权重导入到所述强化学习模型,获取所述强化学习模型的实时状态,将所述实时状态与状态库中的状态进行匹配,得到所述实时状态的贡献值;
    根据所述实时状态的贡献值,对所述初始奖励权重进行修正后,得到最终奖励权重;
    根据所述最终奖励权重,对各所述备选方案数据进行评分后,得到各所述备选方案数据的初始评分。
  5. 根据权利要求1所述的基于强化学习的信息处理方法,其中,所述根据预设的加分策略对所述初始评分进行处理后得到所述备选方案数据的最终评分,包括:
    获取所述备选方案数据中符合所述加分策略且达到所述样本数据的参数期望的目标值以及所述样本数据中参数的实际值;
    获取所述加分策略对应的预置等级分,并将所述目标值、所述实际值和所述等级分入参到附加评分函数进行计算,得到所述附加评分:
    其中,所述附加评分函数为:
    Figure PCTCN2020093423-appb-100001
    式子中,r new为附加评分,{match}为备选方案数据符合加分策略的数量,d i为第i个加分策略对应的等级分,g i为在第i个加分策略下的目标值与实际值的差值,h为常数;
    将所述初始评分和所述附加评分相加后得到所述最终评分。
  6. 根据权利要求1至5任一项所述的基于强化学习的信息处理方法,其中,所述根据预设的业务逻辑对各所述备选方案数据进行过滤,包括:
    采用预置分词器对所述备选方案数据进行分词,得到各方案数据对应的分词集;
    依次将所述分词集中的分词与预置敏感词库进行对比,输出所述备选方案数据对应的分词集中所包含的多个敏感词;
    采用预置正则匹配式,确定所述各敏感词在所述备选方案数据中的逻辑表述关系,并判断所述逻辑关系是否符合预设的业务逻辑;
    若所述逻辑表述关系符合所述业务逻辑,则保留该备选方案数据,否则删除该备选方案数据。
  7. 一种基于强化学习的信息处理装置,其中,包括以下模块:
    数据采集模块,设置为获取原始数据并对所述原始数据进行预处理,得到样本数据;
    评分权重模块,设置为获取所述样本数据中达到参数期望的目标值,提取所述样本数据中参数的实际值,并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算,得到所述实际值的评分权重;
    初始评分模块,设置为获取所述样本数据对应的多个备选方案数据,将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后,得到各所述备选方案数据的初始评分;
    最终评分模块,设置为根据预设的加分策略对所述初始评分进行处理后得到所述备选方案数据的最终评分;
    目标方案模块,设置为根据预设的业务逻辑对各所述备选方案数据进行过滤,并以过滤后的备选方案数据中最终评分最高项作为所述原始数据的目标方案数据。
  8. 根据权利要求7所述的基于强化学习的信息处理装置,其中,所述数据采集模块,还用于:
    对所述原始数据中的文字数据进行词向量转换,得到多个数据词向量;
    根据预设的筛选策略对所述数据词向量进行词向量转换,得到策略词向量;
    将各所述数据词向量和所述策略词向量进行乘积,得到多个词向量矩阵,计算各所述词向量矩阵的特征值,并根据所述特征值对所述文字数据进行处理后,得到所述样本数据。
  9. 一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,其中,所述计算机可读指令被所述处理器执行时,使得所述处理器执行基于强化学习的信息处理方法,其中,基于强化学习的信息处理方法,包括:
    获取原始数据并对所述原始数据进行预处理,得到样本数据;
    获取所述样本数据中达到参数期望的目标值,提取所述样本数据中参数的实际值,并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算,得到所述实际值的评分权重;
    获取所述样本数据对应的多个备选方案数据,将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后,得到各所述备选方案数据的初始评分;
    根据预设的加分策略对所述初始评分进行处理后得到所述备选方案数据的最终评分;
    根据预设的业务逻辑对各所述备选方案数据进行过滤,并以过滤后的备选方案数据中最终评分最高项作为所述原始数据的目标方案数据。
  10. 根据权利要求9所述的计算机设备,其中,所述获取原始数据并对所述原始数据进行预处理,得到样本数据,包括:
    对所述原始数据中的文字数据进行词向量转换,得到多个数据词向量;
    根据预设的筛选策略对所述数据词向量进行词向量转换,得到策略词向量;
    将各所述数据词向量和所述策略词向量进行乘积,得到多个词向量矩阵,计算各所述词向量矩阵的特征值,并根据所述特征值对所述文字数据进行处理后,得到所述样本数据。
  11. 根据权利要求9所述的计算机设备,其中,所述获取所述样本数据中达到参数期望的目标值,提取所述样本数据中参数的实际值,并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算,得到所述实际值的评分权重,包括:
    采用实体抽取技术抽取所述样本数据中的实体名称信息,并根据所述实体名称信息从预置数据库中提取出包含有所述实体名称信息的信息字段;
    从所述信息字段中提取出所述目标值;
    将所述目标值和所述实际值入参到预设的奖惩函数进行计算,得到所述实际值的评分权重,其中,评分权重的计算公式为:
    r(S t+1)=a[sgn(A-S t+1)]+b(S t-S t+1),
    式子中,r(S t+1)为第t+1个实际值的评分权重,a,b为平衡常数0≤a≤1、0≤b≤1,sgn()为符号函数,A为目标值,S t为第t个实际值,S t+1为第t+1个实际值。
  12. 根据权利要求9所述的计算机设备,其中,所述将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后,得到各所述备选方案数据的初始评分,包括:
    根据所述评分权重,生成所述强化学习模型中参数的初始奖励权重;
    将各所述备选方案数据和所述实际值的评分权重导入到所述强化学习模型,获取所述强化学习模型的实时状态,将所述实时状态与状态库中的状态进行匹配,得到所述实时状态的贡献值;
    根据所述实时状态的贡献值,对所述初始奖励权重进行修正后,得到最终奖励权重;
    根据所述最终奖励权重,对各所述备选方案数据进行评分后,得到各所述备选方案数据的初始评分。
  13. 根据权利要求9所述的计算机设备,其中,所述根据预设的加分策略对所述初始评分进行处理后得到所述备选方案数据的最终评分,包括:
    获取所述备选方案数据中符合所述加分策略且达到所述样本数据的参数期望的目标值以及所述样本数据中参数的实际值;
    获取所述加分策略对应的预置等级分,并将所述目标值、所述实际值和所述等级分入参到附加评分函数进行计算,得到所述附加评分:
    其中,所述附加评分函数为:
    Figure PCTCN2020093423-appb-100002
    式子中,r new为附加评分,{match}为备选方案数据符合加分策略的数量,d i为第i个加分策略对应的等级分,g i为在第i个加分策略下的目标值与实际值的差值,h为常数;
    将所述初始评分和所述附加评分相加后得到所述最终评分。
  14. 根据权利要求9至13任一项所述的计算机设备,其中,所述根据预设的业务逻辑对各所述备选方案数据进行过滤,包括:
    采用预置分词器对所述备选方案数据进行分词,得到各方案数据对应的分词集;
    依次将所述分词集中的分词与预置敏感词库进行对比,输出所述备选方案数据对应的分词集中所包含的多个敏感词;
    采用预置正则匹配式,确定所述各敏感词在所述备选方案数据中的逻辑表述关系,并判断所述逻辑关系是否符合预设的业务逻辑;
    若所述逻辑表述关系符合所述业务逻辑,则保留该备选方案数据,否则删除该备选方案数据。
  15. 一种存储有计算机可读指令的存储介质,其中,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行基于强化学习的信息处理方法,其中,基于强化学习的信息处理方法,包括:
    获取原始数据并对所述原始数据进行预处理,得到样本数据;
    获取所述样本数据中达到参数期望的目标值,提取所述样本数据中参数的实际值,并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算,得到所述实际值的评分权重;
    获取所述样本数据对应的多个备选方案数据,将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后,得到各所述备选方案数据的初始评分;
    根据预设的加分策略对所述初始评分进行处理后得到所述备选方案数据的最终评分;
    根据预设的业务逻辑对各所述备选方案数据进行过滤,并以过滤后的备选方案数据中最终评分最高项作为所述原始数据的目标方案数据。
  16. 根据权利要求15所述的存储有计算机可读指令的存储介质,其中,所述获取原始数据并对所述原始数据进行预处理,得到样本数据,包括:
    对所述原始数据中的文字数据进行词向量转换,得到多个数据词向量;
    根据预设的筛选策略对所述数据词向量进行词向量转换,得到策略词向量;
    将各所述数据词向量和所述策略词向量进行乘积,得到多个词向量矩阵,计算各所述词向量矩阵的特征值,并根据所述特征值对所述文字数据进行处理后,得到所述样本数据。
  17. 根据权利要求15所述的存储有计算机可读指令的存储介质,其中,所述获取所述样本数据中达到参数期望的目标值,提取所述样本数据中参数的实际值,并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算,得到所述实际值的评分权重,包括:
    采用实体抽取技术抽取所述样本数据中的实体名称信息,并根据所述实体名称信息从预置数据库中提取出包含有所述实体名称信息的信息字段;
    从所述信息字段中提取出所述目标值;
    将所述目标值和所述实际值入参到预设的奖惩函数进行计算,得到所述实际值的评分权重,其中,评分权重的计算公式为:
    r(S t+1)=a[sgn(A-S t+1)]+b(S t-S t+1),
    式子中,r(S t+1)为第t+1个实际值的评分权重,a,b为平衡常数0≤a≤1、0≤b≤1,sgn()为符号函数,A为目标值,S t为第t个实际值,S t+1为第t+1个实际值。
  18. 根据权利要求15所述的存储有计算机可读指令的存储介质,其中,所述将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后,得到各所述备选方案数据的初始评分,包括:
    根据所述评分权重,生成所述强化学习模型中参数的初始奖励权重;
    将各所述备选方案数据和所述实际值的评分权重导入到所述强化学习模型,获取所述强化学习模型的实时状态,将所述实时状态与状态库中的状态进行匹配,得到所述实时状态的贡献值;
    根据所述实时状态的贡献值,对所述初始奖励权重进行修正后,得到最终奖励权重;
    根据所述最终奖励权重,对各所述备选方案数据进行评分后,得到各所述备选方案数据的初始评分。
  19. 根据权利要求15所述的存储有计算机可读指令的存储介质,其中,所述根据预设的加分策略对所述初始评分进行处理后得到所述备选方案数据的最终评分,包括:
    获取所述备选方案数据中符合所述加分策略且达到所述样本数据的参数期望的目标值以及所述样本数据中参数的实际值;
    获取所述加分策略对应的预置等级分,并将所述目标值、所述实际值和所述等级分入参到附加评分函数进行计算,得到所述附加评分:
    其中,所述附加评分函数为:
    Figure PCTCN2020093423-appb-100003
    式子中,r new为附加评分,{match}为备选方案数据符合加分策略的数量,d i为第i个加分策略对应的等级分,g i为在第i个加分策略下的目标值与实际值的差值,h为常数;
    将所述初始评分和所述附加评分相加后得到所述最终评分。
  20. 根据权利要求15至19任一项所述的存储有计算机可读指令的存储介质,其中,所述根据预设的业务逻辑对各所述备选方案数据进行过滤,包括:
    采用预置分词器对所述备选方案数据进行分词,得到各方案数据对应的分词集;
    依次将所述分词集中的分词与预置敏感词库进行对比,输出所述备选方案数据对应的分词集中所包含的多个敏感词;
    采用预置正则匹配式,确定所述各敏感词在所述备选方案数据中的逻辑表述关系,并判断所述逻辑关系是否符合预设的业务逻辑;
    若所述逻辑表述关系符合所述业务逻辑,则保留该备选方案数据,否则删除该备选方案数据。
PCT/CN2020/093423 2019-10-18 2020-05-29 基于强化学习的信息处理方法、装置、设备和存储介质 WO2021073118A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910991379.XA CN110928936B (zh) 2019-10-18 2019-10-18 基于强化学习的信息处理方法、装置、设备和存储介质
CN201910991379.X 2019-10-18

Publications (1)

Publication Number Publication Date
WO2021073118A1 true WO2021073118A1 (zh) 2021-04-22

Family

ID=69849190

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/093423 WO2021073118A1 (zh) 2019-10-18 2020-05-29 基于强化学习的信息处理方法、装置、设备和存储介质

Country Status (2)

Country Link
CN (1) CN110928936B (zh)
WO (1) WO2021073118A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113436213A (zh) * 2021-06-23 2021-09-24 上海极维信息科技有限公司 使用强化学习处理定位算法的区域边缘问题的方法
CN113657583A (zh) * 2021-08-24 2021-11-16 广州市香港科大霍英东研究院 一种基于强化学习的大数据特征提取方法及系统
CN116934486A (zh) * 2023-09-15 2023-10-24 深圳格隆汇信息科技有限公司 一种基于深度学习的决策评估方法及系统
CN117025896A (zh) * 2023-08-10 2023-11-10 昆山市广进热处理有限公司 一种热处理系统

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110928936B (zh) * 2019-10-18 2023-06-16 平安科技(深圳)有限公司 基于强化学习的信息处理方法、装置、设备和存储介质
CN111651655A (zh) * 2020-04-27 2020-09-11 平安普惠企业管理有限公司 业务方案选择方法、装置、电子设备及介质
CN111524571B (zh) * 2020-05-21 2022-06-10 电子科技大学 一种脑卒中患者个性化治疗方案推荐系统
CN112017742B (zh) * 2020-09-08 2024-05-24 平安科技(深圳)有限公司 分诊数据处理方法、装置、计算机设备及存储介质
CN116469448B (zh) * 2022-02-18 2024-02-02 武汉置富半导体技术有限公司 一种闪存颗粒的筛选方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090018984A1 (en) * 2000-06-30 2009-01-15 Solinsky James C System and method for dynamic knowledge construction
CN105426994A (zh) * 2015-11-13 2016-03-23 国家电网公司 配电网备选建设项目的优化选择方法
CN107016570A (zh) * 2017-03-30 2017-08-04 北京汽车股份有限公司 基于客户声音voc的产品评分方法和装置
CN110298035A (zh) * 2019-06-04 2019-10-01 平安科技(深圳)有限公司 基于人工智能的字向量定义方法、装置、设备及存储介质
CN110928936A (zh) * 2019-10-18 2020-03-27 平安科技(深圳)有限公司 基于强化学习的信息处理方法、装置、设备和存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010085773A1 (en) * 2009-01-24 2010-07-29 Kontera Technologies, Inc. Hybrid contextual advertising and related content analysis and display techniques
US10217058B2 (en) * 2014-01-30 2019-02-26 Microsoft Technology Licensing, Llc Predicting interesting things and concepts in content
CN107403426B (zh) * 2017-06-20 2020-02-21 北京工业大学 一种目标物体检测方法及设备
CN109858630A (zh) * 2019-02-01 2019-06-07 清华大学 用于强化学习的方法和设备
CN109872006A (zh) * 2019-03-11 2019-06-11 西南石油大学 一种评分分布预测方法及装置
CN110046457B (zh) * 2019-04-26 2021-02-05 百度在线网络技术(北京)有限公司 人体模型的控制方法、装置、电子设备以及存储介质
CN110148039A (zh) * 2019-05-21 2019-08-20 山东大学 一种众智网络智能数体需求匹配策略优化方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090018984A1 (en) * 2000-06-30 2009-01-15 Solinsky James C System and method for dynamic knowledge construction
CN105426994A (zh) * 2015-11-13 2016-03-23 国家电网公司 配电网备选建设项目的优化选择方法
CN107016570A (zh) * 2017-03-30 2017-08-04 北京汽车股份有限公司 基于客户声音voc的产品评分方法和装置
CN110298035A (zh) * 2019-06-04 2019-10-01 平安科技(深圳)有限公司 基于人工智能的字向量定义方法、装置、设备及存储介质
CN110928936A (zh) * 2019-10-18 2020-03-27 平安科技(深圳)有限公司 基于强化学习的信息处理方法、装置、设备和存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113436213A (zh) * 2021-06-23 2021-09-24 上海极维信息科技有限公司 使用强化学习处理定位算法的区域边缘问题的方法
CN113657583A (zh) * 2021-08-24 2021-11-16 广州市香港科大霍英东研究院 一种基于强化学习的大数据特征提取方法及系统
CN117025896A (zh) * 2023-08-10 2023-11-10 昆山市广进热处理有限公司 一种热处理系统
CN117025896B (zh) * 2023-08-10 2024-03-08 昆山市广进热处理有限公司 一种热处理系统
CN116934486A (zh) * 2023-09-15 2023-10-24 深圳格隆汇信息科技有限公司 一种基于深度学习的决策评估方法及系统
CN116934486B (zh) * 2023-09-15 2024-01-12 深圳市蓝宇飞扬科技有限公司 一种基于深度学习的决策评估方法及系统

Also Published As

Publication number Publication date
CN110928936B (zh) 2023-06-16
CN110928936A (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
WO2021073118A1 (zh) 基于强化学习的信息处理方法、装置、设备和存储介质
US20220254493A1 (en) Chronic disease prediction system based on multi-task learning model
CN111709233B (zh) 基于多注意力卷积神经网络的智能导诊方法及系统
CN109920501B (zh) 基于卷积神经网络和主动学习的电子病历分类方法及系统
WO2021169263A1 (zh) 基于内部对抗机制的语义匹配方法、装置及存储介质
US10438119B2 (en) Text-based inference chaining
Barik et al. Analysis of prediction accuracy of diabetes using classifier and hybrid machine learning techniques
WO2022198761A1 (zh) 一种基于决策树和改进smote算法的哮喘病诊断系统
CN110109835A (zh) 一种基于深度神经网络的软件缺陷定位方法
WO2022042043A1 (zh) 机器学习模型的训练方法、装置和电子设备
CN109935337B (zh) 一种基于相似性度量的病案查找方法及系统
CN116910172B (zh) 基于人工智能的随访量表生成方法及系统
WO2021008601A1 (zh) 一种医学数据的检验方法
CN117316466A (zh) 一种基于知识图谱与自然语言处理技术的临床决策方法、系统及设备
Iparraguirre-Villanueva et al. Convolutional neural networks with transfer learning for pneumonia detection
Barhate et al. Analysis of classifiers for prediction of type ii diabetes mellitus
CN113674862A (zh) 一种基于机器学习的急性肾功能损伤发病预测方法
CN111986814A (zh) 一种红斑狼疮患者的狼疮性肾炎预测模型的建模方法
CN118335292A (zh) 一种中医专病专方交互辅助系统
CN112883066B (zh) 一种数据库上的多维范围查询基数估计方法
Gurunathan et al. Web Application-based Diabetes Prediction using Machine Learning
CN112100382B (zh) 聚类方法及装置、计算机可读存储介质、处理器
CN113609360A (zh) 一种基于场景化多源数据融合分析的方法和系统
CN111261283B (zh) 基于金字塔型卷积层的心电信号深度神经网络建模方法
CN114758743A (zh) 信息预测方法、装置、存储介质及计算机设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20876737

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20876737

Country of ref document: EP

Kind code of ref document: A1