WO2021159738A1 - 基于医学领域的数据推荐方法、设备、服务器及存储介质 - Google Patents

基于医学领域的数据推荐方法、设备、服务器及存储介质 Download PDF

Info

Publication number
WO2021159738A1
WO2021159738A1 PCT/CN2020/124606 CN2020124606W WO2021159738A1 WO 2021159738 A1 WO2021159738 A1 WO 2021159738A1 CN 2020124606 W CN2020124606 W CN 2020124606W WO 2021159738 A1 WO2021159738 A1 WO 2021159738A1
Authority
WO
WIPO (PCT)
Prior art keywords
content
user
information
sample data
feature vector
Prior art date
Application number
PCT/CN2020/124606
Other languages
English (en)
French (fr)
Inventor
张倩
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2021159738A1 publication Critical patent/WO2021159738A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/387Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/20ICT specially adapted for the handling or processing of medical references relating to practices or guidelines
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage

Definitions

  • This application relates to the field of digital medical care, and in particular to a data recommendation method, device, server and storage medium based on the medical field.
  • mainstream recommendation systems usually include an indexing stage, a recalling stage, and a sorting stage.
  • the recalling stage is mainly used to directly select content from the content candidate set obtained from the indexing stage within a limited response time, and select The content is sent to the sorting stage.
  • This method is subject to the requirements of huge candidate set and real-time performance, and its complexity is limited, so it is not suitable for complex models and networks.
  • the embodiments of the present application provide a data recommendation method, device, server, and storage medium based on the medical field, which help to improve the efficiency and accuracy of data recommendation in the medical field.
  • an embodiment of the present application provides a data recommendation method based on the medical field, including:
  • the training sample set includes first user portrait information and first content information of multiple users, wherein the first user portrait information includes one of user attribute information, behavior data information, and preference information
  • the first content information is medical-related data, including one positive sample data and multiple negative sample data, and each negative sample data includes first negative sample data and second negative sample data;
  • the target recommended content corresponding to the target index identifier is obtained from the redis cache according to the target index identifier carried in the recommendation request, and the target recommended content is sent To the user terminal.
  • an embodiment of the present application provides a data recommendation device based on the medical field, including:
  • the construction unit is used to construct a training sample set, the training sample set includes first user portrait information and first content information of multiple users, wherein the first user portrait information includes user attribute information, behavior data information, One or more of preference information, the first content information is medical-related data, including one positive sample data and multiple negative sample data, and each negative sample data includes first negative sample data and second negative sample data ;
  • the determining unit is configured to determine the first user characteristic corresponding to the first user portrait information according to the first user portrait information, and determine the first content corresponding to the first content information according to the first content information feature;
  • a training unit configured to input the first user characteristics and the first content characteristics into a twin tower model for training, to obtain a recall model
  • the processing unit is configured to input the second user portrait information of the target user who has acted on the specified business scenario and the second content information in the content candidate pool of the specified business scenario into the recall model to obtain the target user’s User feature vector and content feature vector;
  • the calculation unit is configured to calculate the distance between the user feature vector and the content feature vector, determine N recommended content according to the distance, and store the index identification of the N recommended content in the redis cache, where,
  • the N recommended content is the top N recommended content in the multiple recommended content sorted from small to large according to the distance, and N is a positive integer greater than or equal to 1;
  • the recommendation unit is configured to obtain the target recommended content corresponding to the target index identifier from the redis cache according to the target index identifier carried in the recommendation request when the recommendation request sent by the user terminal is obtained, and to combine all The target recommended content is sent to the user terminal.
  • an embodiment of the present application provides a server, including a processor, an input device, an output device, and a memory.
  • the processor, input device, output device, and memory are connected to each other, wherein the memory is used for storage support
  • the medical field-based data recommendation device executes the computer program of the above method, the computer program includes a program, and the processor is configured to call the program to execute the following method:
  • the training sample set includes first user portrait information and first content information of multiple users, wherein the first user portrait information includes one of user attribute information, behavior data information, and preference information
  • the first content information is medical-related data, including one positive sample data and multiple negative sample data, and each negative sample data includes first negative sample data and second negative sample data;
  • the target recommended content corresponding to the target index identifier is obtained from the redis cache according to the target index identifier carried in the recommendation request, and the target recommended content is sent To the user terminal.
  • an embodiment of the present application provides a computer-readable storage medium, the computer storage medium stores a computer program, and the computer program is executed by a processor to implement the following method:
  • the training sample set includes first user portrait information and first content information of multiple users, wherein the first user portrait information includes one of user attribute information, behavior data information, and preference information
  • the first content information is medical-related data, including one positive sample data and multiple negative sample data, and each negative sample data includes first negative sample data and second negative sample data;
  • the target recommended content corresponding to the target index identifier is obtained from the redis cache according to the target index identifier carried in the recommendation request, and the target recommended content is sent To the user terminal.
  • the embodiments of the present application can improve the efficiency and accuracy of data recommendation in the medical field.
  • FIG. 1 is a schematic structural diagram of a data recommendation system based on the medical field provided by an embodiment of the present application
  • FIG. 2 is a schematic flowchart of a data recommendation system based on the medical field provided by an embodiment of the present application
  • FIG. 3 is a schematic flowchart of a data recommendation method based on the medical field provided by an embodiment of the present application
  • FIG. 4 is a schematic block diagram of a data recommendation device based on the medical field provided by an embodiment of the present application
  • Fig. 5 is a schematic block diagram of a server provided by an embodiment of the present application.
  • the technical solution of this application can be applied to the fields of artificial intelligence, digital medicine, smart city, blockchain and/or big data technology to realize data recommendation, such as data recommendation in the medical field, and realize smart medicine.
  • data recommendation such as data recommendation in the medical field
  • the data involved in this application can be stored in a database, or can be stored in a blockchain, or can also be stored in other ways, which is not limited in this application.
  • the medical field-based data recommendation method can be applied to a medical field-based data recommendation system.
  • the medical field-based data recommendation system includes a server and a user terminal.
  • the server includes a data recommendation device based on the medical field.
  • the user terminal may establish a communication connection with the server.
  • the communication connection mode may include, but is not limited to, Wi-Fi, Bluetooth, Near Field Communication (NFC), and so on.
  • the user terminal includes, but is not limited to, smart terminal devices such as smart phones, tablet computers, notebook computers, and desktop computers.
  • FIG. 1 is a schematic structural diagram of a data recommendation system based on the medical field provided by an embodiment of the present application.
  • the data recommendation system based on the medical field includes: a server 11 and a user terminal 12.
  • the user terminal 12 may establish a communication connection with the server 11.
  • the user terminal 12 may include, but is not limited to, smart terminal devices such as smart phones, tablet computers, notebook computers, and desktop computers.
  • the server 11 may construct a training sample set.
  • the training sample set includes first user portrait information and first content information of multiple users, and the first content information includes one positive sample data and multiple negative samples.
  • Sample data, each negative sample data includes first negative sample data and second negative sample data; the first user feature corresponding to the first user profile information and the first content feature corresponding to the first content information
  • the identifier is stored in the redis cache; when the server 11 obtains the recommendation request sent by the user terminal 12, it can obtain the target corresponding to the target index identifier from the redis cache according to the target index identifier carried in the recommendation request Recommend content,
  • Figure 2 is a flow diagram of a medical field-based data recommendation system provided by an embodiment of the present application.
  • the medical field-based data recommendation system is mainly divided into offline processing 21 and There are two parts of online processing 22, in which offline processing 21 is used to construct training sample sets and model training, and online processing 22 is used to send target recommended content to the user terminal when a recommendation request sent by the user terminal is obtained.
  • positive sample data and negative sample data can be obtained from the log data 211, wherein when the positive sample data is obtained from the log data 211, it can be determined that the data in the log data 211 that is exposed and clicked Positive sample data; when obtaining negative sample data from the log data 211, the first negative sample data can be randomly extracted according to the exposure number in the log data 211, and the subject of the positive sample data can be obtained from the log data The other data with the same information is the second negative sample data, so it is determined that the first negative sample data and the second negative sample data are negative sample data.
  • the positive sample data and the negative sample data can be input into the twin tower model for training through the loss function to obtain the recall model.
  • the second user profile information of the target user 221 and the second content information in the content candidate pool of the specified business scenario can be input into the recall model to obtain the user feature vector and content feature of the target user 221 Vector, and calculate the distance between the user feature vector and the content feature vector, and determine N recommended content according to the distance. Therefore, the index identifiers of the N recommended contents can be stored in the redis cache.
  • an efficient and high-performance data recommendation system is constructed in combination with business scenarios and content data characteristics.
  • the first user profile information and the first content information including one positive sample data and multiple negative sample data are used as training
  • the sample set is trained to obtain the recall model; and the recall model is used to determine the target recommended content for the target user, and the index identification of the target recommended content is stored in the redis cache, so that when the target user's recommendation request is obtained, the redis can be directly obtained
  • FIG. 3 is a schematic flowchart of a data recommendation method based on the medical field provided by an embodiment of the present application.
  • the method can be executed by a data recommendation device based on the medical field.
  • the data recommendation device in the medical field is set in the server, and the specific explanation of the server is as described above, and will not be repeated here.
  • the method of the embodiment of the present application includes the following steps.
  • S301 Construct a training sample set, where the training sample set includes first user portrait information and first content information of multiple users.
  • a data recommendation device based on the medical field can construct a training sample set.
  • the training sample set includes first user portrait information and first content information of multiple users, wherein the first user portrait information includes One or more of user attribute information, behavior data information, and preference information.
  • the first content information is medical-related data, including one positive sample data and multiple negative sample data, and each negative sample data includes the first Negative sample data and second negative sample data.
  • the medical field-based data recommendation device when the medical field-based data recommendation device constructs the training sample set, it can obtain log data of the specified business scenario, and obtain the behavior data of the exposed click from the log data; and according to the log data; The behavior data of the exposed click is determined to be the positive sample data; and the first negative sample data is randomly sampled from the sample candidate set, and the first negative sample data is randomly sampled according to the positive.
  • the theme information of the sample data determines the second negative sample data that is the same as the theme information from other sample data except the positive sample data.
  • the topic information includes but is not limited to topics such as disease prediction, disease detection, and disease diagnosis.
  • a data recommendation device based on the medical field can obtain log data of the medical paper platform, and obtain the behavior data of the exposed click from the log data; and According to the behavior data of the exposed click, it is determined that the medical paper data corresponding to the behavior data of the exposed click is the positive sample data. If the subject of the positive sample data is disease prediction, the medical field-based data recommendation device can determine the disease prediction from other sample data other than the positive sample data based on the subject information of the positive sample data. The second negative sample data with the same theme information.
  • the information of each hot topic information can be obtained The number of exposures, and over-sampling each hot topic information according to the number of exposures, to obtain the first negative sample data. In this way, it helps to offset the influence of hot topic information on the positive sample data.
  • the ratio of the positive sample data and the negative sample data may be 1:20, where the ratio of the coarse-grained first negative sample data and the fine-grained second negative sample data in the 20 negative sample data may be 19:1.
  • the medical-related data may be articles, papers, etc. related to some diseases, drugs, cases, etc. related to medicine.
  • the designated business scenario may include, but is not limited to, a platform related to medical data.
  • S302 Determine a first user characteristic corresponding to the first user portrait information according to the first user portrait information, and determine a first content characteristic corresponding to the first content information according to the first content information.
  • the medical field-based data recommendation device may determine the first user characteristic corresponding to the first user portrait information according to the first user portrait information, and determine the first user characteristic corresponding to the first user portrait information according to the first content information.
  • the medical field-based data recommendation device when it determines the first content feature corresponding to the first content information according to the first content information, it can acquire the positive sample data and the negative sample data Related attributes, wherein the related attributes include one or more of related departments, related drugs, related topics, and related diseases; and the related attributes are mounted according to the positive sample data and the negative sample data The related attribute determines the first content feature corresponding to the first content information.
  • the first user portrait information includes one or more of the user's attribute information, the user's behavior data information, and the user's preference information
  • the user's attribute information includes but is not limited to such as User ID, age, gender, geographic location (province and city), specific occupation (such as doctor/nurse/country doctor/medical student, etc.);
  • the user’s behavior data information includes but not limited to past behavior (click/point Like/repost/collect, etc.) the sequence of thesis, the disease sequence with the behavior, the department sequence with the behavior, the drug sequence with the behavior, etc.
  • the user's preference information includes but not limited to the user's preferred diseases, preferred Drugs, preferred departments, etc.
  • the first user characteristic is determined according to one or more of the user's attribute information, behavior data information, and preference information.
  • S303 Input the first user feature and the first content feature into a twin tower model for training, to obtain a recall model.
  • a data recommendation device based on the medical field may input the first user characteristics and the first content characteristics into a twin tower model for training, to obtain a recall model. Specifically, after the medical field-based data recommendation device generates the first user feature and the first content feature, the first user feature and the first content feature may be input into the twin tower model for training.
  • the medical field-based data recommendation device when the medical field-based data recommendation device inputs the first user characteristics and the first content characteristics into the twin tower model for training, and obtains a recall model, it may combine the first user characteristics and the first content characteristics.
  • the first content feature is input into the twin tower model to obtain a loss function value; the loss function value is compared with the target loss function value, and the model parameters of the twin tower model are adjusted according to the comparison result; and the first The user characteristics and the first content characteristics are input into the twin tower model after adjusting the model parameters; when the comparison result of the obtained loss function value and the target loss function value meets a preset condition, it is determined that the recall model is obtained.
  • the value of the loss function may be determined according to the Bayesian Personalized Ranking Loss Operator (BPR), and the formula of the BPR is shown in the following formula (1):
  • said u is a user portrait information, d + positive sample data, d - negative sample data, ⁇ u, d +> represents user portrait information and positive sample data, ⁇ u, d -> represents user portrait information and negative sample data, ⁇ u, d +> - ⁇ u, d -> represents the distance information between the user information and portrait data of positive samples and negative samples user information portrait data.
  • the recall model may be evaluated according to the probability of the highest score that the positive sample data is correctly predicted.
  • S304 Input the second user portrait information of the target user who has acted on the specified business scenario and the second content information in the content candidate pool of the specified business scenario into the recall model to obtain the user feature vector of the target user And content feature vector.
  • the medical field-based data recommendation device can input the second user portrait information of the target user who has acted on the specified business scenario and the second content information in the content candidate pool of the specified business scenario into the said The recall model is used to obtain the user feature vector and content feature vector of the target user.
  • the medical field-based data recommendation device inputs the second user portrait information of the target user who has acted on the specified business scenario and the second content information in the content candidate pool of the specified business scenario into the said Recall model, when the user feature vector and content feature vector of the target user are obtained, the second user portrait information of the target user who has acted on the specified business scenario within the historical time range before the specified time can be obtained, and determine A second user feature corresponding to the second user profile information; acquiring second content information in the content candidate pool of the specified business scenario, and determining the second content feature corresponding to the second content information; The second user characteristic and the second content characteristic are input into the recall model to obtain the user characteristic vector and the content characteristic vector of the target user.
  • the second content information in the content candidate pool of the specified business scenario includes content information of all users in the specified business scenario.
  • the medical field-based data recommendation device inputs the second user portrait information of the target user who has acted on the specified business scenario and the second content information in the content candidate pool of the specified business scenario into the said
  • the recall model when obtaining the user feature vector and content feature vector of the target user, can obtain the second user portrait information of each user who has acted on the specified business scene within the historical time range before the specified time, and Determine the second user characteristics corresponding to the second user profile information of each user; obtain the second content information in the content candidate pool of the specified business scenario, and determine the second content information corresponding to the second content information
  • Two content features input the second user feature and the second content feature of each user into the recall model to obtain the user feature vector and content feature vector of each user.
  • a data recommendation device based on the medical field can obtain the second user portrait information of the target user Zhang San who has acted on the medical paper platform within 24 hours before time t, and determine the second user portrait information corresponding to the second user portrait information.
  • Second user characteristics and acquiring the second content information in the content candidate pool corresponding to all users who have had behavioral data on the medical paper platform in the medical paper platform, and determining the second content information corresponding to the second content information
  • the second content feature thus the second user feature and the second content feature are input into the recall model to obtain Zhang San's user feature vector and content feature vector.
  • S305 Calculate the distance between the user feature vector and the content feature vector, determine N recommended content according to the distance, and store the index identifiers of the N recommended content in the redis cache, where the N One recommended content is the top N recommended content in the multiple recommended content sorted from small to large according to the distance, and N is a positive integer greater than or equal to 1.
  • the medical field-based data recommendation device can calculate the distance between the user feature vector and the content feature vector, determine N recommended content according to the distance, and index the N recommended content
  • the identifier is stored in the redis cache, where the N recommended contents are the top N recommended contents in the order of the distance from the smallest to the largest among the plurality of recommended contents, and N is a positive integer greater than or equal to 1.
  • the cosine similarity algorithm may be used to calculate the distance between the user feature vector and the content feature vector. And determine the distance between the user feature vector and the content feature vector according to the similarity.
  • the medical field-based data recommendation device when the medical field-based data recommendation device stores the index identifiers of the N recommended content in the redis cache, it can obtain the user identifiers and/or content identifiers of the N recommended content, and then use The user IDs and/or content IDs of the N recommended contents are determined, the index IDs of the N recommended contents are determined, and the index IDs of the N recommended contents are stored in the redis cache.
  • the medical field-based data recommendation device when the medical field-based data recommendation device obtains the recommendation request sent by the user terminal, it may obtain the target index identifier from the redis cache according to the target index identifier carried in the recommendation request. Corresponding target recommended content, and send the target recommended content to the user terminal.
  • the target index identifier may be a user identifier or a content identifier.
  • the recommendation request may carry a user identification and/or content identification, and when the recommendation device based on the data in the medical field obtains the recommendation request sent by the user terminal, the recommendation request may be based on the user identification carried in the recommendation request. And/or the content identifier determines the corresponding target index identifier, obtains the target recommended content corresponding to the target index identifier from the redis cache, and sends the target recommended content to the user terminal.
  • the target index identifier may be a user identifier or a content identifier.
  • a data recommendation device based on the medical field can construct a training sample set.
  • the training sample set includes first user portrait information and first content information of multiple users, and the first content information includes a positive sample.
  • the recall model input the second user profile information of the target user who has acted on the specified business scenario and the second content information in the content candidate pool of the specified business scenario
  • the recall model obtains the user feature vector and the content feature vector of the target user; calculates the distance between the user feature vector and the content feature vector, determines N recommended content according to the distance, and compares the N
  • the index identifier of the recommended content is stored in the redis cache; when the recommendation request sent by the user terminal is obtained, the target index identifier carried in the recommendation request is obtained from the redis cache corresponding to the
  • the embodiment of the present application also provides a data recommendation device based on the medical field, which is used to execute the unit of any one of the foregoing methods.
  • FIG. 4 is a schematic block diagram of a data recommendation device based on the medical field provided by an embodiment of the present application.
  • the medical field-based data recommendation device of this embodiment includes: a construction unit 401, a determination unit 402, a training unit 403, a processing unit 404, a calculation unit 405, and a recommendation unit 406.
  • the constructing unit 401 is configured to construct a training sample set, the training sample set includes first user portrait information and first content information of multiple users, wherein the first user portrait information includes user attribute information and behavior data information One or more of preference information, the first content information is medical-related data, including one positive sample data and multiple negative sample data, each negative sample data includes a first negative sample data and a second negative sample data;
  • the training unit 403 is configured to input the first user characteristics and the first content characteristics into the twin tower model for training to obtain a recall model
  • the processing unit 404 is configured to input the second user portrait information of the target user who has acted on the specified business scenario and the second content information in the content candidate pool of the specified business scenario into the recall model to obtain the target user User feature vector and content feature vector of
  • the calculation unit 405 is configured to calculate the distance between the user feature vector and the content feature vector, determine N recommended content according to the distance, and store the index identification of the N recommended content in the redis cache, where ,
  • the N recommended content is the top N recommended content in the multiple recommended content sorted from small to large according to the distance, and N is a positive integer greater than or equal to 1;
  • the recommendation unit 406 is configured to obtain the target recommended content corresponding to the target index identifier from the redis cache according to the target index identifier carried in the recommendation request when the recommendation request sent by the user terminal is obtained, and The target recommended content is sent to the user terminal.
  • construction 401 constructs a training sample set, it is specifically used for:
  • the first negative sample data is randomly sampled from the sample candidate set, and the second negative sample data that is the same as the theme information is determined from sample data other than the positive sample data according to the theme information of the positive sample data. Negative sample data.
  • the determining unit 402 determines the first content feature corresponding to the first content information according to the first content information, it is specifically configured to:
  • the relevant attributes include one or more of related departments, related drugs, related topics, and related diseases;
  • the first content feature corresponding to the first content information is determined according to the related attributes mounted on the positive sample data and the negative sample data.
  • the training unit 403 inputs the first user characteristics and the first content characteristics into the twin tower model for training, and when a recall model is obtained, it is specifically used for:
  • the processing unit 404 inputs the second user portrait information of the target user who has acted on the specified business scenario and the second content information in the content candidate pool of the specified business scenario into the recall model to obtain the
  • the user feature vector and content feature vector of the target user are specifically used for:
  • the second user feature and the second content feature are input into the recall model to obtain the user feature vector and content feature vector of the target user.
  • calculation unit 405 calculates the distance between the user feature vector and the content feature vector, it is specifically used for:
  • the distance between the user feature vector and the content feature vector is determined according to the similarity.
  • calculation unit 405 stores the index identifiers of the N recommended contents in the redis cache, it is specifically used for:
  • the index identifiers of the N recommended contents are determined, and the index identifiers of the N recommended contents are stored in the redis cache.
  • FIG. 5 is a schematic block diagram of a server according to an embodiment of the present application.
  • the server in this embodiment as shown in the figure may include: one or more processors 501; one or more input devices 502, one or more output devices 503, and a memory 504.
  • the aforementioned processor 501, input device 502, output device 503, and memory 504 are connected via a bus 505.
  • the memory 504 is configured to store a computer program, and the computer program includes a program, and the processor 501 is configured to execute the program stored in the memory 504.
  • the processor 501 is configured to call the program to execute:
  • the training sample set includes first user portrait information and first content information of multiple users, wherein the first user portrait information includes one of user attribute information, behavior data information, and preference information
  • the first content information is medical-related data, including one positive sample data and multiple negative sample data, and each negative sample data includes first negative sample data and second negative sample data;
  • the target recommended content corresponding to the target index identifier is obtained from the redis cache according to the target index identifier carried in the recommendation request, and the target recommended content is sent To the user terminal.
  • the processor 501 constructs a training sample set, it is specifically configured to:
  • the first negative sample data is randomly sampled from the sample candidate set, and the second negative sample data that is the same as the theme information is determined from sample data other than the positive sample data according to the theme information of the positive sample data. Negative sample data.
  • the processor 501 determines the first content feature corresponding to the first content information according to the first content information, it is specifically configured to:
  • the relevant attributes include one or more of related departments, related drugs, related topics, and related diseases;
  • the first content feature corresponding to the first content information is determined according to the related attributes mounted on the positive sample data and the negative sample data.
  • the processor 501 inputs the first user characteristics and the first content characteristics into a twin tower model for training, and when a recall model is obtained, it is specifically used for:
  • the first user feature and the first content feature are input into the twin tower model after adjusting the model parameters, and when the comparison result of the obtained loss function value and the target loss function value meets a preset condition, it is determined to obtain the The recall model.
  • the processor 501 inputs the second user portrait information of the target user who has acted on the specified business scenario and the second content information in the content candidate pool of the specified business scenario into the recall model to obtain the recall model.
  • the user feature vector and content feature vector of the target user are specifically used for:
  • the second user feature and the second content feature are input into the recall model to obtain the user feature vector and content feature vector of the target user.
  • the processor 501 calculates the distance between the user feature vector and the content feature vector, it is specifically configured to:
  • the distance between the user feature vector and the content feature vector is determined according to the similarity.
  • the processor 501 stores the index identifiers of the N recommended content in the redis cache, it is specifically used to:
  • the index identifiers of the N recommended contents are determined, and the index identifiers of the N recommended contents are stored in the redis cache.
  • the server may construct a training sample set, the training sample set includes first user portrait information and first content information of multiple users, and the first content information includes one positive sample data and multiple negative samples Data, each negative sample data includes first negative sample data and second negative sample data; the first user feature corresponding to the first user profile information and the first content feature corresponding to the first content information are input
  • the two-tower model is trained to obtain a recall model; the second user portrait information of the target user who has acted in the specified business scenario and the second content information in the content candidate pool of the specified business scenario are input into the recall model to obtain The user feature vector and content feature vector of the target user; calculate the distance between the user feature vector and the content feature vector, determine N recommended content according to the distance, and identify the index of the N recommended content Stored in the redis cache; when the recommendation request sent by the user terminal is obtained, the target recommended content corresponding to the target index identifier is obtained from the redis cache according to the target index identifier carried in the recommendation request, and the The target recommended content is sent
  • the processor 501 may be a central processing unit (CenSral Processing UniS, CPU), and the processor may also be other general-purpose processors or digital signal processors (DigiSal Signal Processor, DSP). , Application-specific integrated circuits (ApplicaSion Specific InSegraSed Circuits, ASIC), ready-made programmable gate arrays (Field-Programmable GaSe Array, FPGA) or other programmable logic devices, discrete gates or transistor logic devices, discrete hardware components, etc.
  • the general-purpose processor may be a microprocessor or the processor may also be any conventional processor or the like.
  • the input device 502 may include a touch panel, a microphone, etc.
  • the output device 503 may include a display (LCD, etc.), a speaker, and the like.
  • the memory 504 may include a read-only memory and a random access memory, and provides instructions and data to the processor 501. A part of the memory 504 may also include a non-volatile random access memory. For example, the memory 504 may also store device type information.
  • the processor 501, input device 502, and output device 503 described in the embodiments of this application can execute the implementation described in the method embodiment shown in FIG. 3 provided by the embodiments of this application, and can also execute this The implementation of the medical field-based data recommendation device described in FIG. 4 of the application embodiment will not be repeated here.
  • the embodiments of the present application also provide a computer-readable storage medium, the computer-readable storage medium stores a computer program, and when the computer program is executed by a processor, it implements the medical field-based description in the embodiment corresponding to FIG. 3
  • the data recommendation method can also implement the data recommendation device based on the medical field in the embodiment corresponding to FIG. 4 of the present application, which will not be repeated here.
  • the storage medium involved in this application such as a computer-readable storage medium, may be non-volatile or volatile.
  • the computer-readable storage medium may be the internal storage unit of the medical field-based data recommendation device described in any of the foregoing embodiments, for example, the hard disk or memory of the medical field-based data recommendation device.
  • the computer-readable storage medium may also be an external storage device of the medical field-based data recommendation device, such as a plug-in hard disk or a smart memory card (SmarS Media Card, which is equipped on the medical field-based data recommendation device). SMC), Secure DigiSal (SD) card, Flash Card, etc.
  • the computer-readable storage medium may also include both an internal storage unit of the medical field-based data recommendation device and an external storage device.
  • the computer-readable storage medium is used to store the computer program and other programs and data required by the medical field-based data recommendation device.
  • the computer-readable storage medium can also be used to temporarily store data that has been output or will be output.
  • the integrated unit is implemented in the form of a software functional unit and sold or used as an independent product, it can be stored in a computer readable storage medium.
  • the technical solution of this application is essentially or the part that contributes to the existing technology, or all or part of the technical solution can be embodied in the form of a software product, and the computer software product can be stored in a computer.
  • the read storage medium includes several instructions to enable a computer device (which may be a personal computer, a server, or a network device, etc.) to execute all or part of the steps of the methods described in the various embodiments of the present application.
  • the aforementioned computer-readable storage media include: U disk, mobile hard disk, read-only memory (ROM, Read-Only Memory), random access memory (RAM, Random Access Memory), magnetic disks or optical disks and other various programs that can store programs
  • the medium of the code may mainly include a storage program area and a storage data area, where the storage program area may store an operating system, an application program required by at least one function, etc.; the storage data area may store information based on the blockchain node Use the created data, etc.
  • the above diagnosis result can also be stored in a node of a blockchain.
  • the blockchain referred to in this application is a new application mode of computer technology such as distributed data storage, point-to-point transmission, consensus mechanism, and encryption algorithm.
  • Blockchain essentially a decentralized database, is a series of data blocks associated with cryptographic methods. Each data block contains a batch of network transaction information for verification. The validity of the information (anti-counterfeiting) and the generation of the next block.
  • the blockchain can include the underlying platform of the blockchain, the platform product service layer, and the application service layer.

Abstract

一种基于医学领域的数据推荐方法、设备、服务器及存储介质,该方法包括:将构建的训练样本集中的第一用户特征和第一内容特征输入双塔模型进行训练得到召回模型;将对指定业务场景有过行为的目标用户的第二用户画像信息和指定业务场景的第二内容信息输入召回模型,得到用户特征向量和内容特征向量;根据用户特征向量与内容特征向量的距离确定N个推荐内容,并将N个推荐内容的索引标识存储于redis缓存中;当获取到用户终端发送的推荐请求时,将与推荐请求中携带的目标索引标识对应的目标推荐内容发送给用户终端,从而提高数据推荐的效率和准确率。该方法涉及区块链技术,上述数据可存储于区块链中。

Description

基于医学领域的数据推荐方法、设备、服务器及存储介质
本申请要求于2020年9月27日提交中国专利局、申请号为202011033995.3,发明名称为“基于医学领域的数据推荐方法、设备、服务器及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及数字医疗领域,尤其涉及一种基于医学领域的数据推荐方法、设备、服务器及存储介质。
背景技术
发明人意识到,目前,主流的推荐系统通常包括索引阶段、召回阶段和排序阶段,其中,召回阶段主要是通过在有限的响应时间内直接从索引阶段得到的内容候选集中选择内容,并将选择的内容发送至排序阶段。这种方式受到巨大候选集和实时性的要求,复杂性受限,不适用于复杂的模型和网络。
发明内容
本申请实施例提供了一种基于医学领域的数据推荐方法、设备、服务器及存储介质,有助于提高医疗领域的数据推荐的效率和准确率。
第一方面,本申请实施例提供了一种基于医学领域的数据推荐方法,包括:
构建训练样本集,所述训练样本集包括多个用户的第一用户画像信息和第一内容信息,其中,所述第一用户画像信息包括用户的属性信息、行为数据信息、偏好信息中的一种或多种,所述第一内容信息为医学相关数据,包括一个正样本数据和多个负样本数据,每个负样本数据包括第一负样本数据和第二负样本数据;
根据所述第一用户画像信息确定与所述第一用户画像信息对应的第一用户特征,并根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征;
将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型;
将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量;
计算所述用户特征向量与所述内容特征向量的距离,并根据所述距离确定N个推荐内容,以及将所述N个推荐内容的索引标识存储于redis缓存中,其中,所述N个推荐内容为多个推荐内容中按照所述距离从小到大的排序中的前N个推荐内容,N为大于或等于1的正整数;
当获取到用户终端发送的推荐请求时,根据所述推荐请求中携带的目标索引标识,从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容,并将所述目标推荐内容发送给所述用户终端。
第二方面,本申请实施例提供了一种基于医学领域的数据推荐设备,包括:
构建单元,用于构建训练样本集,所述训练样本集包括多个用户的第一用户画像信息和第一内容信息,其中,所述第一用户画像信息包括用户的属性信息、行为数据信息、偏好信息中的一种或多种,所述第一内容信息为医学相关数据,包括一个正样本数据和多个负样本数据,每个负样本数据包括第一负样本数据和第二负样本数据;
确定单元,用于根据所述第一用户画像信息确定与所述第一用户画像信息对应的第一用户特征,并根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征;
训练单元,用于将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型;
处理单元,用于将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户 特征向量和内容特征向量;
计算单元,用于计算所述用户特征向量与所述内容特征向量的距离,并根据所述距离确定N个推荐内容,以及将所述N个推荐内容的索引标识存储于redis缓存中,其中,所述N个推荐内容为多个推荐内容中按照所述距离从小到大的排序中的前N个推荐内容,N为大于或等于1的正整数;
推荐单元,用于当获取到用户终端发送的推荐请求时,根据所述推荐请求中携带的目标索引标识,从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容,并将所述目标推荐内容发送给所述用户终端。
第三方面,本申请实施例提供了一种服务器,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储支持基于医学领域的数据推荐设备执行上述方法的计算机程序,所述计算机程序包括程序,所述处理器被配置用于调用所述程序,执行以下方法:
构建训练样本集,所述训练样本集包括多个用户的第一用户画像信息和第一内容信息,其中,所述第一用户画像信息包括用户的属性信息、行为数据信息、偏好信息中的一种或多种,所述第一内容信息为医学相关数据,包括一个正样本数据和多个负样本数据,每个负样本数据包括第一负样本数据和第二负样本数据;
根据所述第一用户画像信息确定与所述第一用户画像信息对应的第一用户特征,并根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征;
将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型;
将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量;
计算所述用户特征向量与所述内容特征向量的距离,并根据所述距离确定N个推荐内容,以及将所述N个推荐内容的索引标识存储于redis缓存中,其中,所述N个推荐内容为多个推荐内容中按照所述距离从小到大的排序中的前N个推荐内容,N为大于或等于1的正整数;
当获取到用户终端发送的推荐请求时,根据所述推荐请求中携带的目标索引标识,从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容,并将所述目标推荐内容发送给所述用户终端。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行以实现以下方法:
构建训练样本集,所述训练样本集包括多个用户的第一用户画像信息和第一内容信息,其中,所述第一用户画像信息包括用户的属性信息、行为数据信息、偏好信息中的一种或多种,所述第一内容信息为医学相关数据,包括一个正样本数据和多个负样本数据,每个负样本数据包括第一负样本数据和第二负样本数据;
根据所述第一用户画像信息确定与所述第一用户画像信息对应的第一用户特征,并根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征;
将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型;
将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量;
计算所述用户特征向量与所述内容特征向量的距离,并根据所述距离确定N个推荐内容,以及将所述N个推荐内容的索引标识存储于redis缓存中,其中,所述N个推荐内容为多个推荐内容中按照所述距离从小到大的排序中的前N个推荐内容,N为大于或等于1 的正整数;
当获取到用户终端发送的推荐请求时,根据所述推荐请求中携带的目标索引标识,从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容,并将所述目标推荐内容发送给所述用户终端。
本申请实施例可以提高医疗领域的数据推荐的效率和准确率。
附图说明
图1是本申请实施例提供的一种基于医学领域的数据推荐系统的结构示意图;
图2是本申请实施例提供的一种基于医学领域的数据推荐系统的流程示意图;
图3是本申请实施例提供的一种基于医学领域的数据推荐方法的示意流程图;
图4是本申请实施例提供的一种基于医学领域的数据推荐设备的示意框图;
图5是本申请实施例提供的一种服务器的示意框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
本申请的技术方案可应用于人工智能、数字医疗、智慧城市、区块链和/或大数据技术领域,以实现数据推荐,比如医疗领域的数据推荐,实现智慧医疗。可选的,本申请涉及的数据如训练样本和/或推荐内容等可存储于数据库中,或者可以存储于区块链中,或者还可采用其他方式存储,本申请不做限定。
本申请实施例提供的基于医学领域的数据推荐方法可以应用于一种基于医学领域的数据推荐系统,在某些实施例中,所述基于医学领域的数据推荐系统包括服务器和用户终端。在某些实施例中,所述服务器中包括基于医学领域的数据推荐设备。在某些实施例中,所述用户终端可以与服务器建立通信连接。在某些实施例中,所述通信连接的方式可以包括但不限于Wi-Fi、蓝牙、近场通信(Near Field Communication,NFC)等。在某些实施例中,所述用户终端包括但不限于智能手机、平板电脑、笔记本电脑、台式电脑等智能终端设备。
下面结合附图1和图2对本申请实施例提供的基于医学领域的数据推荐系统进行示意性说明。
请参见图1,图1是本申请实施例提供的一种基于医学领域的数据推荐系统的结构示意图。所述基于医学领域的数据推荐系统包括:服务器11和用户终端12。在某些实施例中,所述用户终端12可以与服务器11建立通信连接。在某些实施例中,所述用户终端12可以包括但不限于智能手机、平板电脑、笔记本电脑、台式电脑等智能终端设备。
本申请实施例中,服务器11可以构建训练样本集,所述训练样本集包括多个用户的第一用户画像信息和第一内容信息,所述第一内容信息包括一个正样本数据和多个负样本数据,每个负样本数据包括第一负样本数据和第二负样本数据;将与所述第一用户画像信息对应的第一用户特征以及与所述第一内容信息对应的第一内容特征输入双塔模型进行训练,得到召回模型;将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量;计算所述用户特征向量与所述内容特征向量的距离,并根据所述距离确定N个推荐内容,以及将所述N个推荐内容的索引标识存储于redis缓存中;当服务器11获取到用户终端12发送的推荐请求时,可以根据所述推荐请求中携带的目标索引标识,从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容,并将所述目标推荐内容发送给所述用户终端12。通过这种方式可以提高医疗领域的数据推荐的效率和准确率。
请参见图2,图2是本申请实施例提供的一种基于医学领域的数据推荐系统的流程示意图,如图2所示,所述基于医学领域的数据推荐系统主要分为线下处理21和线上处理22两部分,其中,线下处理21用于构建训练样本集以及模型训练,线上处理22用于在获取到用户终端发送的推荐请求时,向用户终端发送目标推荐内容。
在线下处理21的具体实施过程中,可以从日志数据211中获取正样本数据和负样本数据,其中,在从日志数据211中获取正样本数据时,可以确定日志数据211中被曝光点击的数据为正样本数据;在从日志数据211中获取负样本数据时,可以按从日志数据211中的曝光数随机抽取得到第一负样本数据,以及,可以从日志数据中获取与正样本数据的主题信息相同的其他数据为第二负样本数据,从而确定第一负样本数据和第二负样本数据为负样本数据。在构建好正样本数据和负样本数据之后可以将正样本数据和负样本数据输入双塔模型通过损失函数进行训练,得到召回模型。
在线上处理22的具体实施过程中,可以将目标用户221的第二用户画像信息和指定业务场景的内容候选池中的第二内容信息输入召回模型,得到目标用户221的用户特征向量和内容特征向量,并计算所述用户特征向量与所述内容特征向量的距离,根据所述距离确定N个推荐内容。从而可以将所述N个推荐内容的索引标识存储于redis缓存中。
本申请实施例,结合业务场景和内容数据特征构建了一个高效、高性能的数据推荐系统,通过将第一用户画像信息和包括一个正样本数据和多个负样本数据的第一内容信息作为训练样本集训练得到召回模型;并利用该召回模型为目标用户确定目标推荐内容,以及将目标推荐内容的索引标识存储于redis缓存中,以便可以在获取到目标用户的推荐请求时,可以直接从redis缓存中获取目标推荐数据,以提高推荐效率和准确度。
下面结合附图3对本申请实施例提供的基于医学领域的数据推荐方法进行示意性说明。
请参见图3,图3是本申请实施例提供的一种基于医学领域的数据推荐方法的示意流程图,如图3所示,该方法可以由基于医学领域的数据推荐设备执行,所述基于医学领域的数据推荐设备设置于服务器中,所述服务器的具体解释如前所述,此处不再赘述。具体地,本申请实施例的所述方法包括如下步骤。
S301:构建训练样本集,所述训练样本集包括多个用户的第一用户画像信息和第一内容信息。
本申请实施例中,基于医学领域的数据推荐设备可以构建训练样本集,所述训练样本集包括多个用户的第一用户画像信息和第一内容信息,其中,所述第一用户画像信息包括用户的属性信息、行为数据信息、偏好信息中的一种或多种,所述第一内容信息为医学相关数据,包括一个正样本数据和多个负样本数据,每个负样本数据包括第一负样本数据和第二负样本数据。
在一个实施例中,基于医学领域的数据推荐设备在构建训练样本集时,可以获取所述指定业务场景的日志数据,并从所述日志数据中获取被曝光点击的行为数据;以及根据所述被曝光点击的行为数据,确定与所述被曝光点击的行为数据对应的医学相关数据为所述正样本数据;以及从样本候选集中随机抽样得到所述第一负样本数据,并根据所述正样本数据的主题信息从除所述正样本数据以外的其他样本数据中确定与所述主题信息相同的所述第二负样本数据。在某些实施例中,所述主题信息包括但不限于疾病预测、疾病检测、疾病诊断等主题。
例如,假设所述指定业务场景为医学论文平台,则基于医学领域的数据推荐设备可以获取所述医学论文平台的日志数据,并从所述日志数据中获取被曝光点击的行为数据;以及根据所述被曝光点击的行为数据,确定与所述被曝光点击的行为数据对应的医学论文数据为所述正样本数据。如果所述正样本数据的主题是疾病预测,则基于医学领域的数据推荐设备可以根据所述正样本数据的主题信息疾病预测从除所述正样本数据以外的其他样本数据中确定与疾病预测这个主题信息相同的第二负样本数据。
通过这种方式,可增加模型训练的难度,有助于帮助模型学习到细粒度的知识和差异。
在一个实施例中,考虑到数据推荐系统中少数的主题信息占据了绝大多数的曝光和点击,在从样本候选集中随机抽样得到所述第一负样本数据时,可以获取各个热门主题信息 的曝光数,并对各个热门主题信息按照曝光数进行过采样,得到所述第一负样本数据。通过这种方式有助于抵消热门主题信息对正样本数据的影响。
在一个实施例中,正样本数据和负样本数据的比例可以为1:20,其中,20个负样本数据中粗粒度的第一负样本数据和细粒度的第二负样本数据的比例可以为19:1。
在某些实施例中,所述医学相关数据可以为与医学相关的一些疾病、药物、病例等相关的文章、论文等。在某些实施例中,所述指定业务场景可以包括但不限于与医学数据相关的平台。
S302:根据所述第一用户画像信息确定与所述第一用户画像信息对应的第一用户特征,并根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征。
本申请实施例中,基于医学领域的数据推荐设备可以根据所述第一用户画像信息确定与所述第一用户画像信息对应的第一用户特征,并根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征。
在一个实施例中,基于医学领域的数据推荐设备在根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征时,可以获取所述正样本数据和所述负样本数据所挂载的相关属性,其中,所述相关属性包括相关科室、相关药物、相关主题、相关疾病中的一种或多种;并根据所述正样本数据和所述负样本数据所挂载的相关属性确定所述第一内容信息对应的第一内容特征。
在一个实施例中,所述第一用户画像信息包括用户的属性信息、用户的行为数据信息、用户的偏好信息中的一种或多种,其中,所述用户的属性信息包括但不限于如用户ID、年龄、性别、地理位置(省份和城市)、具体职业(比如医生/护士/乡村医生/医学生等等);所述用户的行为数据信息包括但不限于有过行为(点击/点赞/转发/收藏等)的论文序列,有过行为的疾病序列,有过行为的科室序列,有过行为的药物序列等;所述用户的偏好信息包括但不限于用户偏好的疾病,偏好的药物,偏好的科室等。
在一个实施例中,所述第一用户特征是根据用户的属性信息、行为数据信息、偏好信息中的一种或多种确定的。
S303:将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型。
本申请实施例中,基于医学领域的数据推荐设备可以将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型。具体地,基于医学领域的数据推荐设备在生成所述第一用户特征和所述第一内容特征之后,可以将所述第一用户特征和所述第一内容特征输入双塔模型进行训练。
在一个实施例中,基于医学领域的数据推荐设备在将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型时,可以将所述第一用户特征和所述第一内容特征输入双塔模型中,得到损失函数值;将所述损失函数值与目标损失函数值进行对比,并根据对比结果调整所述双塔模型的模型参数;以及将所述第一用户特征和所述第一内容特征输入调整所述模型参数后的双塔模型中;当得到的损失函数值与目标损失函数值的对比结果满足预设条件时,确定得到所述召回模型。
在一个实施例中,所述损失函数值可以是根据贝叶斯个性化排序损失函数(Bayesian Personalized Ranking Loss Operator,BPR)确定的,所述BPR的公式如下公式(1)所示:
Figure PCTCN2020124606-appb-000001
其中,所述u为用户画像信息,d +为正样本数据,d -为负样本数据,<u,d +>表示用户画像信息和正样本数据,<u,d ->表示用户画像信息和负样本数据,<u,d +>-<u,d ->表示用户画 像信息和正样本数据与用户画像信息和负样本数据之间的距离信息。
在一个实施例中,可根据正样本数据被正确预测的最高分的概率来评价所述召回模型。
通过这种利用用户特征和内容特征训练模型的方式,有助于探索用户和内容两种不同的实体在同一个隐含空间内的相似性,从而进行推荐。
S304:将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量。
本申请实施例中,基于医学领域的数据推荐设备可以将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量。
在一个实施例中,基于医学领域的数据推荐设备在将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量时,可以获取在指定时刻之前的历史时间范围内对所述指定业务场景有过行为的目标用户的第二用户画像信息,并确定与所述第二用户画像信息对应的第二用户特征;获取在所述指定业务场景的内容候选池中的第二内容信息,并确定与所述第二内容信息对应的第二内容特征;将所述第二用户特征和所述第二内容特征输入所述召回模型中,得到所述目标用户的用户特征向量和内容特征向量。
在一个实施例中,所述指定业务场景的内容候选池中的第二内容信息包括所述指定业务场景中所有用户的内容信息。
在一个实施例中,基于医学领域的数据推荐设备在将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量时,可以获取在指定时刻之前的历史时间范围内对所述指定业务场景有过行为的每个用户的第二用户画像信息,并确定与所述每个用户的第二用户画像信息对应的第二用户特征;获取在所述指定业务场景的内容候选池中的第二内容信息,并确定与所述第二内容信息对应的第二内容特征;将所述每个用户的第二用户特征和所述第二内容特征输入所述召回模型中,得到所述每个用户的用户特征向量和内容特征向量。
例如,基于医学领域的数据推荐设备可以获取在t时刻之前的24小时内对医学论文平台有过行为的目标用户张三的第二用户画像信息,并确定与所述第二用户画像信息对应的第二用户特征;以及获取在所述医学论文平台中所有对所述医学论文平台有过行为数据的用户对应的内容候选池中的第二内容信息,并确定与所述第二内容信息对应的第二内容特征;从而将所述第二用户特征和所述第二内容特征输入所述召回模型中,得到张三的用户特征向量和内容特征向量。
S305:计算所述用户特征向量与所述内容特征向量的距离,并根据所述距离确定N个推荐内容,以及将所述N个推荐内容的索引标识存储于redis缓存中,其中,所述N个推荐内容为多个推荐内容中按照所述距离从小到大的排序中的前N个推荐内容,N为大于或等于1的正整数。
本申请实施例中,基于医学领域的数据推荐设备可以计算所述用户特征向量与所述内容特征向量的距离,并根据所述距离确定N个推荐内容,以及将所述N个推荐内容的索引标识存储于redis缓存中,其中,所述N个推荐内容为多个推荐内容中按照所述距离从小到大的排序中的前N个推荐内容,N为大于或等于1的正整数。
在一个实施例中,基于医学领域的数据推荐设备在计算所述用户特征向量与所述内容特征向量的距离时,可以利用余弦相似度算法计算所述用户特征向量与所述内容特征向量 之间的相似度,并根据所述相似度确定所述用户特征向量与所述内容特征向量的距离。
在一个实施例中,基于医学领域的数据推荐设备在将所述N个推荐内容的索引标识存储于redis缓存中时,可以获取所述N个推荐内容的用户标识和/或内容标识,并根据所述N个推荐内容的用户标识和/或内容标识,确定所述N个推荐内容的索引标识,并将所述N个推荐内容的索引标识存储于所述redis缓存中。
通过将所述推荐内容存储于redis这种速度快、支持数据持久化以及支持丰富数据类型的key-value类型数据的内存库中,有助于提高推荐的效率。
S306:当获取到用户终端发送的推荐请求时,根据所述推荐请求中携带的目标索引标识,从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容,并将所述目标推荐内容发送给所述用户终端。
本申请实施例中,基于医学领域的数据推荐设备当获取到用户终端发送的推荐请求时,可以根据所述推荐请求中携带的目标索引标识,从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容,并将所述目标推荐内容发送给所述用户终端。在某些实施例中,所述目标索引标识可以为用户标识或内容标识。
在一个实施例中,所述推荐请求中可以携带用户标识和/或内容标识,基于医学领域的数据推荐设备当获取到用户终端发送的推荐请求时,可以根据所述推荐请求中携带的用户标识和/或内容标识确定对应的目标索引标识,并从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容,并将所述目标推荐内容发送给所述用户终端。在某些实施例中,所述目标索引标识可以为用户标识或内容标识。
本申请实施例中,基于医学领域的数据推荐设备可以构建训练样本集,所述训练样本集包括多个用户的第一用户画像信息和第一内容信息,所述第一内容信息包括一个正样本数据和多个负样本数据,每个负样本数据包括第一负样本数据和第二负样本数据;将与所述第一用户画像信息对应的第一用户特征以及与所述第一内容信息对应的第一内容特征输入双塔模型进行训练,得到召回模型;将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量;计算所述用户特征向量与所述内容特征向量的距离,并根据所述距离确定N个推荐内容,以及将所述N个推荐内容的索引标识存储于redis缓存中;当获取到用户终端发送的推荐请求时,根据所述推荐请求中携带的目标索引标识,从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容,并将所述目标推荐内容发送给所述用户终端。通过这种方式可以提高医疗领域的数据推荐的效率和准确率。
本申请实施例还提供了一种基于医学领域的数据推荐设备,该基于医学领域的数据推荐设备用于执行前述任一项所述的方法的单元。具体地,参见图4,图4是本申请实施例提供的一种基于医学领域的数据推荐设备的示意框图。本实施例的基于医学领域的数据推荐设备包括:构建单元401、确定单元402、训练单元403、处理单元404、计算单元405以及推荐单元406。
构建单元401,用于构建训练样本集,所述训练样本集包括多个用户的第一用户画像信息和第一内容信息,其中,所述第一用户画像信息包括用户的属性信息、行为数据信息、偏好信息中的一种或多种,所述第一内容信息为医学相关数据,包括一个正样本数据和多个负样本数据,每个负样本数据包括第一负样本数据和第二负样本数据;
确定单元402,用于根据所述第一用户画像信息确定与所述第一用户画像信息对应的第一用户特征,并根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征;
训练单元403,用于将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型;
处理单元404,用于将对指定业务场景有过行为的目标用户的第二用户画像信息和所 述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量;
计算单元405,用于计算所述用户特征向量与所述内容特征向量的距离,并根据所述距离确定N个推荐内容,以及将所述N个推荐内容的索引标识存储于redis缓存中,其中,所述N个推荐内容为多个推荐内容中按照所述距离从小到大的排序中的前N个推荐内容,N为大于或等于1的正整数;
推荐单元406,用于当获取到用户终端发送的推荐请求时,根据所述推荐请求中携带的目标索引标识,从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容,并将所述目标推荐内容发送给所述用户终端。
进一步地,所述构建401构建训练样本集时,具体用于:
获取所述指定业务场景的日志数据,并从所述日志数据中获取被曝光点击的行为数据;
根据所述被曝光点击的行为数据,确定与所述被曝光点击的行为数据对应的医学相关数据为所述正样本数据;
从样本候选集中随机抽样得到所述第一负样本数据,并根据所述正样本数据的主题信息从除所述正样本数据以外的其他样本数据中确定与所述主题信息相同的所述第二负样本数据。
进一步地,所述确定单元402根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征时,具体用于:
获取所述正样本数据和所述负样本数据所挂载的相关属性,其中,所述相关属性包括相关科室、相关药物、相关主题、相关疾病中的一种或多种;
根据所述正样本数据和所述负样本数据所挂载的相关属性确定所述第一内容信息对应的第一内容特征。
进一步地,所述训练单元403将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型时,具体用于:
将所述第一用户特征和所述第一内容特征输入双塔模型中,得到损失函数值;
将所述损失函数值与目标损失函数值进行对比,并根据对比结果调整所述双塔模型的模型参数;
将所述第一用户特征和所述第一内容特征输入调整所述模型参数后的双塔模型中,当得到的损失函数值与目标损失函数值的对比结果满足预设条件时,确定得到所述召回模型。
进一步地,所述处理单元404将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量时,具体用于:
获取在指定时刻之前的历史时间范围内对所述指定业务场景有过行为的目标用户的第二用户画像信息,并确定与所述第二用户画像信息对应的第二用户特征;
获取在所述指定业务场景的内容候选池中的第二内容信息,并确定与所述第二内容信息对应的第二内容特征;
将所述第二用户特征和所述第二内容特征输入所述召回模型中,得到所述目标用户的用户特征向量和内容特征向量。
进一步地,所述计算单元405计算所述用户特征向量与所述内容特征向量的距离时,具体用于:
利用余弦相似度算法计算所述用户特征向量与所述内容特征向量之间的相似度;
根据所述相似度确定所述用户特征向量与所述内容特征向量的距离。
进一步地,所述计算单元405将所述N个推荐内容的索引标识存储于redis缓存中时,具体用于:
获取所述N个推荐内容的用户标识和/或内容标识;
根据所述N个推荐内容的用户标识和/或内容标识,确定所述N个推荐内容的索引标识,并将所述N个推荐内容的索引标识存储于所述redis缓存中。
本申请实施例中,基于医学领域的数据推荐设备可以构建训练样本集,所述训练样本集包括多个用户的第一用户画像信息和第一内容信息,所述第一内容信息包括一个正样本数据和多个负样本数据,每个负样本数据包括第一负样本数据和第二负样本数据;将与所述第一用户画像信息对应的第一用户特征以及与所述第一内容信息对应的第一内容特征输入双塔模型进行训练,得到召回模型;将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量;计算所述用户特征向量与所述内容特征向量的距离,并根据所述距离确定N个推荐内容,以及将所述N个推荐内容的索引标识存储于redis缓存中;当获取到用户终端发送的推荐请求时,根据所述推荐请求中携带的目标索引标识,从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容,并将所述目标推荐内容发送给所述用户终端。通过这种方式可以提高医疗领域的数据推荐的效率和准确率。
参见图5,图5是本申请实施例提供的一种服务器的示意框图。如图所示的本实施例中的服务器可以包括:一个或多个处理器501;一个或多个输入设备502,一个或多个输出设备503和存储器504。上述处理器501、输入设备502、输出设备503和存储器504通过总线505连接。存储器504用于存储计算机程序,所述计算机程序包括程序,处理器501用于执行存储器504存储的程序。其中,处理器501被配置用于调用所述程序执行:
构建训练样本集,所述训练样本集包括多个用户的第一用户画像信息和第一内容信息,其中,所述第一用户画像信息包括用户的属性信息、行为数据信息、偏好信息中的一种或多种,所述第一内容信息为医学相关数据,包括一个正样本数据和多个负样本数据,每个负样本数据包括第一负样本数据和第二负样本数据;
根据所述第一用户画像信息确定与所述第一用户画像信息对应的第一用户特征,并根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征;
将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型;
将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量;
计算所述用户特征向量与所述内容特征向量的距离,并根据所述距离确定N个推荐内容,以及将所述N个推荐内容的索引标识存储于redis缓存中,其中,所述N个推荐内容为多个推荐内容中按照所述距离从小到大的排序中的前N个推荐内容,N为大于或等于1的正整数;
当获取到用户终端发送的推荐请求时,根据所述推荐请求中携带的目标索引标识,从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容,并将所述目标推荐内容发送给所述用户终端。
进一步地,所述处理器501构建训练样本集时,具体用于:
获取所述指定业务场景的日志数据,并从所述日志数据中获取被曝光点击的行为数据;
根据所述被曝光点击的行为数据,确定与所述被曝光点击的行为数据对应的医学相关数据为所述正样本数据;
从样本候选集中随机抽样得到所述第一负样本数据,并根据所述正样本数据的主题信息从除所述正样本数据以外的其他样本数据中确定与所述主题信息相同的所述第二负样本数据。
进一步地,所述处理器501根据所述第一内容信息确定与所述第一内容信息对应的第 一内容特征时,具体用于:
获取所述正样本数据和所述负样本数据所挂载的相关属性,其中,所述相关属性包括相关科室、相关药物、相关主题、相关疾病中的一种或多种;
根据所述正样本数据和所述负样本数据所挂载的相关属性确定所述第一内容信息对应的第一内容特征。
进一步地,所述处理器501将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型时,具体用于:
将所述第一用户特征和所述第一内容特征输入双塔模型中,得到损失函数值;
将所述损失函数值与目标损失函数值进行对比,并根据对比结果调整所述双塔模型的模型参数;
将所述第一用户特征和所述第一内容特征输入调整所述模型参数后的双塔模型中,当得到的损失函数值与目标损失函数值的对比结果满足预设条件时,确定得到所述召回模型。
进一步地,所述处理器501将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量时,具体用于:
获取在指定时刻之前的历史时间范围内对所述指定业务场景有过行为的目标用户的第二用户画像信息,并确定与所述第二用户画像信息对应的第二用户特征;
获取在所述指定业务场景的内容候选池中的第二内容信息,并确定与所述第二内容信息对应的第二内容特征;
将所述第二用户特征和所述第二内容特征输入所述召回模型中,得到所述目标用户的用户特征向量和内容特征向量。
进一步地,所述处理器501计算所述用户特征向量与所述内容特征向量的距离时,具体用于:
利用余弦相似度算法计算所述用户特征向量与所述内容特征向量之间的相似度;
根据所述相似度确定所述用户特征向量与所述内容特征向量的距离。
进一步地,所述处理器501将所述N个推荐内容的索引标识存储于redis缓存中时,具体用于:
获取所述N个推荐内容的用户标识和/或内容标识;
根据所述N个推荐内容的用户标识和/或内容标识,确定所述N个推荐内容的索引标识,并将所述N个推荐内容的索引标识存储于所述redis缓存中。
本申请实施例中,服务器可以构建训练样本集,所述训练样本集包括多个用户的第一用户画像信息和第一内容信息,所述第一内容信息包括一个正样本数据和多个负样本数据,每个负样本数据包括第一负样本数据和第二负样本数据;将与所述第一用户画像信息对应的第一用户特征以及与所述第一内容信息对应的第一内容特征输入双塔模型进行训练,得到召回模型;将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量;计算所述用户特征向量与所述内容特征向量的距离,并根据所述距离确定N个推荐内容,以及将所述N个推荐内容的索引标识存储于redis缓存中;当获取到用户终端发送的推荐请求时,根据所述推荐请求中携带的目标索引标识,从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容,并将所述目标推荐内容发送给所述用户终端。通过这种方式可以提高医疗领域的数据推荐的效率和准确率。
应当理解,在本申请实施例中,所称处理器501可以是中央处理单元(CenSral Processing UniS,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigiSal Signal Processor,DSP)、专用集成电路(ApplicaSion Specific InSegraSed CircuiS,ASIC)、现成可 编程门阵列(Field-Programmable GaSe Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备502可以包括触控板、麦克风等,输出设备503可以包括显示器(LCD等)、扬声器等。
该存储器504可以包括只读存储器和随机存取存储器,并向处理器501提供指令和数据。存储器504的一部分还可以包括非易失性随机存取存储器。例如,存储器504还可以存储设备类型的信息。
具体实现中,本申请实施例中所描述的处理器501、输入设备502、输出设备503可执行本申请实施例提供的图3所述的方法实施例中所描述的实现方式,也可执行本申请实施例图4所描述的基于医学领域的数据推荐设备的实现方式,在此不再赘述。
本申请实施例中还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现图3所对应实施例中描述的基于医学领域的数据推荐方法,也可实现本申请图4所对应实施例的基于医学领域的数据推荐设备,在此不再赘述。可选的,本申请涉及的存储介质如计算机可读存储介质可以是非易失性的,也可以是易失性的。
所述计算机可读存储介质可以是前述任一实施例所述的基于医学领域的数据推荐设备的内部存储单元,例如基于医学领域的数据推荐设备的硬盘或内存。所述计算机可读存储介质也可以是所述基于医学领域的数据推荐设备的外部存储设备,例如所述基于医学领域的数据推荐设备上配备的插接式硬盘,智能存储卡(SmarS Media Card,SMC),安全数字(Secure DigiSal,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述基于医学领域的数据推荐设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述基于医学领域的数据推荐设备所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。所述的计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
需要强调的是,为进一步保证上述数据的私密和安全性,上述诊断结果还可以存储于一区块链的节点中。其中,本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上所述,仅为本申请的部分实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

Claims (20)

  1. 一种基于医学领域的数据推荐方法,包括:
    构建训练样本集,所述训练样本集包括多个用户的第一用户画像信息和第一内容信息,其中,所述第一用户画像信息包括用户的属性信息、行为数据信息、偏好信息中的一种或多种,所述第一内容信息为医学相关数据,包括一个正样本数据和多个负样本数据,每个负样本数据包括第一负样本数据和第二负样本数据;
    根据所述第一用户画像信息确定与所述第一用户画像信息对应的第一用户特征,并根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征;
    将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型;
    将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量;
    计算所述用户特征向量与所述内容特征向量的距离,并根据所述距离确定N个推荐内容,以及将所述N个推荐内容的索引标识存储于redis缓存中,其中,所述N个推荐内容为多个推荐内容中按照所述距离从小到大的排序中的前N个推荐内容,N为大于或等于1的正整数;
    当获取到用户终端发送的推荐请求时,根据所述推荐请求中携带的目标索引标识,从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容,并将所述目标推荐内容发送给所述用户终端。
  2. 根据权利要求1所述的方法,其中,所述构建训练样本集,包括:
    获取所述指定业务场景的日志数据,并从所述日志数据中获取被曝光点击的行为数据;
    根据所述被曝光点击的行为数据,确定与所述被曝光点击的行为数据对应的医学相关数据为所述正样本数据;
    从样本候选集中随机抽样得到所述第一负样本数据,并根据所述正样本数据的主题信息从除所述正样本数据以外的其他样本数据中确定与所述主题信息相同的所述第二负样本数据。
  3. 根据权利要求1所述的方法,其中,所述根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征,包括:
    获取所述正样本数据和所述负样本数据所挂载的相关属性,其中,所述相关属性包括相关科室、相关药物、相关主题、相关疾病中的一种或多种;
    根据所述正样本数据和所述负样本数据所挂载的相关属性确定所述第一内容信息对应的第一内容特征。
  4. 根据权利要求1所述的方法,其中,所述将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型,包括:
    将所述第一用户特征和所述第一内容特征输入双塔模型中,得到损失函数值;
    将所述损失函数值与目标损失函数值进行对比,并根据对比结果调整所述双塔模型的模型参数;
    将所述第一用户特征和所述第一内容特征输入调整所述模型参数后的双塔模型中,当得到的损失函数值与目标损失函数值的对比结果满足预设条件时,确定得到所述召回模型。
  5. 根据权利要求4所述的方法,其中,所述将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量,包括:
    获取在指定时刻之前的历史时间范围内对所述指定业务场景有过行为的目标用户的第二用户画像信息,并确定与所述第二用户画像信息对应的第二用户特征;
    获取在所述指定业务场景的内容候选池中的第二内容信息,并确定与所述第二内容信息对应的第二内容特征;
    将所述第二用户特征和所述第二内容特征输入所述召回模型中,得到所述目标用户的用户特征向量和内容特征向量。
  6. 根据权利要求5所述的方法,其中,所述计算所述用户特征向量与所述内容特征向量的距离,包括:
    利用余弦相似度算法计算所述用户特征向量与所述内容特征向量之间的相似度;
    根据所述相似度确定所述用户特征向量与所述内容特征向量的距离。
  7. 根据权利要求1所述的方法,其中,所述将所述N个推荐内容的索引标识存储于redis缓存中,包括:
    获取所述N个推荐内容的用户标识和/或内容标识;
    根据所述N个推荐内容的用户标识和/或内容标识,确定所述N个推荐内容的索引标识,并将所述N个推荐内容的索引标识存储于所述redis缓存中。
  8. 一种基于医学领域的数据推荐设备,包括:
    构建单元,用于构建训练样本集,所述训练样本集包括多个用户的第一用户画像信息和第一内容信息,其中,所述第一用户画像信息包括用户的属性信息、行为数据信息、偏好信息中的一种或多种,所述第一内容信息为医学相关数据,包括一个正样本数据和多个负样本数据,每个负样本数据包括第一负样本数据和第二负样本数据;
    确定单元,用于根据所述第一用户画像信息确定与所述第一用户画像信息对应的第一用户特征,并根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征;
    训练单元,用于将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型;
    处理单元,用于将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量;
    计算单元,用于计算所述用户特征向量与所述内容特征向量的距离,并根据所述距离确定N个推荐内容,以及将所述N个推荐内容的索引标识存储于redis缓存中,其中,所述N个推荐内容为多个推荐内容中按照所述距离从小到大的排序中的前N个推荐内容,N为大于或等于1的正整数;
    推荐单元,用于当获取到用户终端发送的推荐请求时,根据所述推荐请求中携带的目标索引标识,从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容,并将所述目标推荐内容发送给所述用户终端。
  9. 一种服务器,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序,所述处理器被配置用于调用所述程序,执行以下方法:
    构建训练样本集,所述训练样本集包括多个用户的第一用户画像信息和第一内容信息,其中,所述第一用户画像信息包括用户的属性信息、行为数据信息、偏好信息中的一种或多种,所述第一内容信息为医学相关数据,包括一个正样本数据和多个负样本数据,每个负样本数据包括第一负样本数据和第二负样本数据;
    根据所述第一用户画像信息确定与所述第一用户画像信息对应的第一用户特征,并根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征;
    将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型;
    将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容 特征向量;
    计算所述用户特征向量与所述内容特征向量的距离,并根据所述距离确定N个推荐内容,以及将所述N个推荐内容的索引标识存储于redis缓存中,其中,所述N个推荐内容为多个推荐内容中按照所述距离从小到大的排序中的前N个推荐内容,N为大于或等于1的正整数;
    当获取到用户终端发送的推荐请求时,根据所述推荐请求中携带的目标索引标识,从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容,并将所述目标推荐内容发送给所述用户终端。
  10. 根据权利要求9所述的服务器,其中,所述构建训练样本集时,具体执行:
    获取所述指定业务场景的日志数据,并从所述日志数据中获取被曝光点击的行为数据;
    根据所述被曝光点击的行为数据,确定与所述被曝光点击的行为数据对应的医学相关数据为所述正样本数据;
    从样本候选集中随机抽样得到所述第一负样本数据,并根据所述正样本数据的主题信息从除所述正样本数据以外的其他样本数据中确定与所述主题信息相同的所述第二负样本数据。
  11. 根据权利要求9所述的服务器,其中,所述根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征时,具体执行:
    获取所述正样本数据和所述负样本数据所挂载的相关属性,其中,所述相关属性包括相关科室、相关药物、相关主题、相关疾病中的一种或多种;
    根据所述正样本数据和所述负样本数据所挂载的相关属性确定所述第一内容信息对应的第一内容特征。
  12. 根据权利要求9所述的服务器,其中,所述将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型时,具体执行:
    将所述第一用户特征和所述第一内容特征输入双塔模型中,得到损失函数值;
    将所述损失函数值与目标损失函数值进行对比,并根据对比结果调整所述双塔模型的模型参数;
    将所述第一用户特征和所述第一内容特征输入调整所述模型参数后的双塔模型中,当得到的损失函数值与目标损失函数值的对比结果满足预设条件时,确定得到所述召回模型。
  13. 根据权利要求12所述的服务器,其中,所述将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量时,具体执行:
    获取在指定时刻之前的历史时间范围内对所述指定业务场景有过行为的目标用户的第二用户画像信息,并确定与所述第二用户画像信息对应的第二用户特征;
    获取在所述指定业务场景的内容候选池中的第二内容信息,并确定与所述第二内容信息对应的第二内容特征;
    将所述第二用户特征和所述第二内容特征输入所述召回模型中,得到所述目标用户的用户特征向量和内容特征向量。
  14. 根据权利要求13所述的服务器,其中,所述计算所述用户特征向量与所述内容特征向量的距离时,具体执行:
    利用余弦相似度算法计算所述用户特征向量与所述内容特征向量之间的相似度;
    根据所述相似度确定所述用户特征向量与所述内容特征向量的距离。
  15. 一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现以下方法:
    构建训练样本集,所述训练样本集包括多个用户的第一用户画像信息和第一内容信息, 其中,所述第一用户画像信息包括用户的属性信息、行为数据信息、偏好信息中的一种或多种,所述第一内容信息为医学相关数据,包括一个正样本数据和多个负样本数据,每个负样本数据包括第一负样本数据和第二负样本数据;
    根据所述第一用户画像信息确定与所述第一用户画像信息对应的第一用户特征,并根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征;
    将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型;
    将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量;
    计算所述用户特征向量与所述内容特征向量的距离,并根据所述距离确定N个推荐内容,以及将所述N个推荐内容的索引标识存储于redis缓存中,其中,所述N个推荐内容为多个推荐内容中按照所述距离从小到大的排序中的前N个推荐内容,N为大于或等于1的正整数;
    当获取到用户终端发送的推荐请求时,根据所述推荐请求中携带的目标索引标识,从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容,并将所述目标推荐内容发送给所述用户终端。
  16. 根据权利要求15所述的计算机可读存储介质,其中,所述构建训练样本集时,具体实现:
    获取所述指定业务场景的日志数据,并从所述日志数据中获取被曝光点击的行为数据;
    根据所述被曝光点击的行为数据,确定与所述被曝光点击的行为数据对应的医学相关数据为所述正样本数据;
    从样本候选集中随机抽样得到所述第一负样本数据,并根据所述正样本数据的主题信息从除所述正样本数据以外的其他样本数据中确定与所述主题信息相同的所述第二负样本数据。
  17. 根据权利要求15所述的计算机可读存储介质,其中,所述根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征时,具体实现:
    获取所述正样本数据和所述负样本数据所挂载的相关属性,其中,所述相关属性包括相关科室、相关药物、相关主题、相关疾病中的一种或多种;
    根据所述正样本数据和所述负样本数据所挂载的相关属性确定所述第一内容信息对应的第一内容特征。
  18. 根据权利要求15所述的计算机可读存储介质,其中,所述将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型时,具体实现:
    将所述第一用户特征和所述第一内容特征输入双塔模型中,得到损失函数值;
    将所述损失函数值与目标损失函数值进行对比,并根据对比结果调整所述双塔模型的模型参数;
    将所述第一用户特征和所述第一内容特征输入调整所述模型参数后的双塔模型中,当得到的损失函数值与目标损失函数值的对比结果满足预设条件时,确定得到所述召回模型。
  19. 根据权利要求18所述的计算机可读存储介质,其中,所述将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量时,具体实现:
    获取在指定时刻之前的历史时间范围内对所述指定业务场景有过行为的目标用户的第二用户画像信息,并确定与所述第二用户画像信息对应的第二用户特征;
    获取在所述指定业务场景的内容候选池中的第二内容信息,并确定与所述第二内容信息对应的第二内容特征;
    将所述第二用户特征和所述第二内容特征输入所述召回模型中,得到所述目标用户的用户特征向量和内容特征向量。
  20. 根据权利要求19所述的计算机可读存储介质,其中,所述计算所述用户特征向量与所述内容特征向量的距离时,具体实现:
    利用余弦相似度算法计算所述用户特征向量与所述内容特征向量之间的相似度;
    根据所述相似度确定所述用户特征向量与所述内容特征向量的距离。
PCT/CN2020/124606 2020-09-27 2020-10-29 基于医学领域的数据推荐方法、设备、服务器及存储介质 WO2021159738A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011033995.3A CN111949890B (zh) 2020-09-27 2020-09-27 基于医学领域的数据推荐方法、设备、服务器及存储介质
CN202011033995.3 2020-09-27

Publications (1)

Publication Number Publication Date
WO2021159738A1 true WO2021159738A1 (zh) 2021-08-19

Family

ID=73357058

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/124606 WO2021159738A1 (zh) 2020-09-27 2020-10-29 基于医学领域的数据推荐方法、设备、服务器及存储介质

Country Status (2)

Country Link
CN (1) CN111949890B (zh)
WO (1) WO2021159738A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112612962A (zh) * 2020-12-28 2021-04-06 厦门市最有料信息科技有限公司 一种个性化推荐内容存取排重管理方法
CN113076339A (zh) * 2021-03-18 2021-07-06 北京沃东天骏信息技术有限公司 一种数据缓存方法、装置、设备及存储介质
CN113177174B (zh) * 2021-05-21 2024-02-06 脸萌有限公司 特征构建方法、内容显示方法及相关装置
CN113362139B (zh) * 2021-06-17 2023-04-28 震坤行工业超市(上海)有限公司 基于双塔结构模型的数据处理方法和装置
CN113705792A (zh) * 2021-08-31 2021-11-26 平安银行股份有限公司 基于深度学习模型的个性化推荐方法、装置、设备及介质
CN113704623B (zh) * 2021-08-31 2024-04-16 平安银行股份有限公司 一种数据推荐方法、装置、设备及存储介质
CN114780843A (zh) * 2022-04-20 2022-07-22 北京字节跳动网络技术有限公司 模型训练方法、媒资推荐方法、装置、介质及设备
CN114969486B (zh) * 2022-08-02 2022-11-04 平安科技(深圳)有限公司 语料推荐方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190258963A1 (en) * 2018-02-19 2019-08-22 Microsoft Technology Licensing, Llc Joint representation learning of standardized entities and queries
CN111061946A (zh) * 2019-11-15 2020-04-24 汉海信息技术(上海)有限公司 场景化内容推荐方法、装置、电子设备及存储介质
CN111339240A (zh) * 2020-02-10 2020-06-26 北京达佳互联信息技术有限公司 对象的推荐方法、装置、计算设备和存储介质
CN111563198A (zh) * 2020-04-16 2020-08-21 百度在线网络技术(北京)有限公司 一种物料召回方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10546340B1 (en) * 2015-10-06 2020-01-28 Massachusetts Mutual Life Insurance Company Systems and methods for assessing needs
CN110880141A (zh) * 2019-12-04 2020-03-13 中国太平洋保险(集团)股份有限公司 一种深度双塔模型智能匹配算法及装置
CN111710429A (zh) * 2020-05-29 2020-09-25 平安医疗健康管理股份有限公司 信息的推送方法及装置、计算机设备、存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190258963A1 (en) * 2018-02-19 2019-08-22 Microsoft Technology Licensing, Llc Joint representation learning of standardized entities and queries
CN111061946A (zh) * 2019-11-15 2020-04-24 汉海信息技术(上海)有限公司 场景化内容推荐方法、装置、电子设备及存储介质
CN111339240A (zh) * 2020-02-10 2020-06-26 北京达佳互联信息技术有限公司 对象的推荐方法、装置、计算设备和存储介质
CN111563198A (zh) * 2020-04-16 2020-08-21 百度在线网络技术(北京)有限公司 一种物料召回方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHANG HAIHUA: "Research on the recommendation model of college students' course selection based on big data and machine learning", CHINA CIO NEWS, 20 April 2019 (2019-04-20), pages 105 - 106, XP055836134, ISSN: 1001-2362 *

Also Published As

Publication number Publication date
CN111949890B (zh) 2021-02-05
CN111949890A (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
WO2021159738A1 (zh) 基于医学领域的数据推荐方法、设备、服务器及存储介质
US9785792B2 (en) Systems and methods for processing requests for genetic data based on client permission data
CN111602147B (zh) 基于非局部神经网络的机器学习模型
Bolón-Canedo et al. Feature selection for high-dimensional data
US10963273B2 (en) Generating personalized content summaries for users
US11886555B2 (en) Online identity reputation
US11327975B2 (en) Methods and systems for improved entity recognition and insights
WO2022126971A1 (zh) 基于密度的文本聚类方法、装置、设备及存储介质
US20190114362A1 (en) Searching Online Social Networks Using Entity-based Embeddings
US9871714B2 (en) Identifying user biases for search results on online social networks
US20190065594A1 (en) Similarity Search Using Progressive Inner Products and Bounds
WO2021121187A1 (zh) 基于分词文本的电子病例查重方法、装置、计算机设备
AU2017324850A1 (en) Similarity search using polysemous codes
US20210165913A1 (en) Controlling access to de-identified data sets based on a risk of re- identification
JP2008539528A (ja) ソーシャルネットワークにおける利用者の相性の得点化
WO2019237541A1 (zh) 联系人标签的确定方法、装置、终端设备及介质
WO2021120688A1 (zh) 医疗误诊检测方法、装置、电子设备及存储介质
US20180349347A1 (en) Measuring Phrase Association on Online Social Networks
WO2022105496A1 (zh) 智能回访方法、装置、电子设备及可读存储介质
US9813467B1 (en) Real-time alignment and processing of incomplete stream of data
CN108428001B (zh) 信用分值预测方法及装置
CN111552865A (zh) 用户兴趣画像方法及相关设备
Gencturk et al. Bofrf: A novel boosting-based federated random forest algorithm on horizontally partitioned data
EP3557503A1 (en) Generating personalized content summaries for users
WO2021174923A1 (zh) 概念词序列生成方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20918906

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20918906

Country of ref document: EP

Kind code of ref document: A1