WO2022178932A1 - 商品搜索数据处理方法、装置、设备及存储介质 - Google Patents

商品搜索数据处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
WO2022178932A1
WO2022178932A1 PCT/CN2021/082785 CN2021082785W WO2022178932A1 WO 2022178932 A1 WO2022178932 A1 WO 2022178932A1 CN 2021082785 W CN2021082785 W CN 2021082785W WO 2022178932 A1 WO2022178932 A1 WO 2022178932A1
Authority
WO
WIPO (PCT)
Prior art keywords
entity word
commodity
minimum
word
itemset
Prior art date
Application number
PCT/CN2021/082785
Other languages
English (en)
French (fr)
Inventor
谷坤
蒋贝贝
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2022178932A1 publication Critical patent/WO2022178932A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]

Definitions

  • the present application relates to the field of big data, and in particular, to a method, apparatus, device and storage medium for processing commodity search data.
  • Internet shopping is one of the mainstream shopping methods in today's society. Users only need to log in to the e-commerce website to search for the products they want to buy, and then they can obtain related products that match their search intentions, and then select the products to be purchased and download. Single deal. In order to obtain more transaction volume, each e-commerce website needs to continuously optimize and improve the way of product search, so that the displayed products are more in line with the user's search intention, improve user experience and facilitate transactions.
  • the inventor realizes that in the prior art, there are many methods for processing commodity search data, most of which are based on a matching algorithm between search keywords and commodity titles, or a matching algorithm based on search keywords and commodity classification information. There may be inaccurate matching products due to inaccurate keyword extraction, or it may be difficult for users to filter intended products due to the large amount of matched product data.
  • the existing method for processing commodity search data does not involve screening and processing commodity data with different purchase intention strengths of users, and thus it is difficult for the commodity search results to meet the user's expectations.
  • the main purpose of this application is to solve the technical problem of inaccurate commodity search results caused by a single processing method of commodity search data.
  • a first aspect of the present application provides a method for processing commodity search data, including:
  • the corresponding commodity attribute information is determined, a preset commodity database is searched according to the commodity attribute information, and a commodity search result is output.
  • a second aspect of the present application provides a computer device, comprising: a memory and at least one processor, wherein instructions are stored in the memory; the at least one processor invokes the instructions in the memory, so that the computer
  • the device executes the steps of the commodity search data processing method described below:
  • the corresponding commodity attribute information is determined, a preset commodity database is searched according to the commodity attribute information, and a commodity search result is output.
  • a third aspect of the present application provides a computer-readable storage medium, where instructions are stored in the computer-readable storage medium, when the computer-readable storage medium runs on a computer, the computer executes the steps of the method for processing commodity search data as described below :
  • the corresponding commodity attribute information is determined, a preset commodity database is searched according to the commodity attribute information, and a commodity search result is output.
  • a fourth aspect of the present application provides a commodity search data processing device, including:
  • the first acquisition module is used to acquire the commodity search sentence input by the user
  • an identification module configured to input the commodity search sentence into a preset entity word extraction model for entity word recognition, and obtain the target entity word in the commodity search sentence;
  • a first search module configured to search a preset entity word encoding library according to the target entity word, and obtain the entity word encoding corresponding to the target entity word;
  • a determination module configured to obtain the frequent item set corresponding to the entity word code, and determine the associated entity word code corresponding to the entity word code according to the frequent item set;
  • the output module is configured to determine the corresponding commodity attribute information according to the entity word code and the associated entity word code, search a preset commodity database according to the commodity attribute information, and output commodity search results.
  • the entity word recognition in the user's search sentence is modeled, the entity word related to the commodity in the user's search sentence is extracted, and then the extracted entity word is searched.
  • the corresponding code in the entity word code library this code can quickly obtain the corresponding product.
  • the code of the associated entity word that appears at the same time and frequently is obtained.
  • the product corresponding to the code of the associated entity word can be quickly obtained, and finally the list of products found can be output. , and display it to the user.
  • the present application expands the processing method of search data and increases the scope of commodity search, thereby accurately outputting strongly related commodities that match the user's search intent.
  • FIG. 1 is a schematic diagram of a first embodiment of a method for processing commodity search data in an embodiment of the application
  • FIG. 2 is a schematic diagram of a second embodiment of a method for processing commodity search data in an embodiment of the present application
  • FIG. 3 is a schematic diagram of a first embodiment of a commodity search data processing device in an embodiment of the application
  • FIG. 4 is a schematic diagram of a second embodiment of a product search data processing apparatus in an embodiment of the present application.
  • FIG. 5 is a schematic diagram of an embodiment of a computer device in an embodiment of the present application.
  • Embodiments of the present application provide a commodity search data processing method, apparatus, device, and storage medium.
  • the terms “first”, “second”, “third”, “fourth”, etc. (if any) in the description and claims of this application and the above-mentioned drawings are used to distinguish similar objects and are not necessarily used to describe a specific order or sequence. It is to be understood that data so used may be interchanged under appropriate circumstances so that the embodiments described herein can be practiced in sequences other than those illustrated or described herein.
  • the first embodiment of the method for processing commodity search data in the embodiment of the present application includes:
  • the execution subject of the present application may be a commodity search data processing device, and may also be a terminal or a server, which is not specifically limited here.
  • the embodiments of the present application take the server as an execution subject as an example for description.
  • the commodity search sentence may be a word, a word, a sentence or a paragraph input by the user, such as "shoes”, “clothes”, “good-looking socks”, “I want to buy a pair of pants”, “I want to give my mother a birthday present, help me find a suitable skirt", etc.
  • These commodity search sentences can be text entered directly by the user in the input box or text recognized by speech. Therefore, there may be Some colloquial search sentences will be input into the entity word extraction model for recognition, and then the target entity words that match the user's search intent will be extracted.
  • these sentences can also be stored as corpus training data for subsequent training of the entity word extraction model, so that the model is more suitable for the commodity search application scenario of the present application.
  • step 101 it also includes:
  • the commodity attribute information and the commodity entity word encode the commodity entity word to obtain the entity word code and store it in the entity word encoding library, wherein the entity word code includes commodity attribute code and commodity entity word ID.
  • This optional embodiment is the preprocessing of commodity information.
  • the merchant uploads the commodity on the e-commerce platform
  • the commodity attribute information and the entity word corresponding to the commodity are pre-marked for the commodity uploaded by the merchant.
  • the data is transmitted to the receiving end, and the receiving end encodes the received commodity attribute information.
  • the receiving end encodes the received commodity attribute information.
  • it will first check whether the same entity word code already exists. If it exists, it will directly refer to the existing entity word code. If If it does not exist, the received commodity entity word is encoded according to the preset encoding rule, wherein the entity word encoding includes the attribute code of the commodity and the entity word ID, which are combined in a splicing manner.
  • the encoding rule can generate a unique timestamp according to the system time, or can generate a unique encoding method according to the Leaf algorithm, etc., which are not enumerated here.
  • the commodity attribute information may be multi-dimensional commodity attribute information.
  • the commodity attribute information may be the material, color, energy efficiency, brand, size, capacity, weight, power, etc. of the commodity.
  • These product attribute information may be filled in or selected and set by the merchant on the visual interface when uploading the product.
  • step 101 it also includes:
  • the data sources for the correlation analysis in this embodiment are mainly the products that users intend to buy and the products that have been purchased. limit.
  • the products intended to be purchased by a single user and the products that have been purchased are distinguished, the correlation analysis is performed on the two products with different purchase desire strengths in the user data of the whole network, and the product with the highest correlation is finally matched.
  • Code search the product database according to this related product code, and get related products.
  • the related products will be comprehensively sorted according to the popularity, rating, transaction volume, price and other factors of the products, and the products with higher comprehensive scores will be displayed to users first. Make the searched related products more in line with user expectations, thereby facilitating transactions.
  • step S40 specifically includes:
  • the support degrees of the first item sets and the second item sets are distinguished, that is, the support degrees of the first item sets in all the first item sets are calculated to obtain the first support degree, and calculate the support degree of each second item set in all the second item sets to obtain the second support degree.
  • the calculation method of the support degree is the proportion of the item set in all item sets. For example, if there are 7 first item sets in total, and a certain item set appears twice, then the support degree of this item set is 2 /7.
  • the item set ["milk powder", “diapers”] appears in the shopping cart of 2,000 users, and the total number of item sets composed of shopping cart products of the entire network is 40,000, then ["milk powder” , “Diapers”] has a support rating of 2000/40000.
  • step S403 specifically includes:
  • the first item set with an increase in the number of word codes is the minimum first itemset, and the second itemset with an increase in the number of word codes is the minimum second itemset;
  • the calculation method of frequent itemsets in this embodiment is extended, and the frequent itemsets of commodities with different purchase desire intensities of users in the whole network can be obtained with the minimum calculation amount.
  • the calculation method is to start with a single-element itemset, and eliminate the itemsets that do not meet the minimum support, and according to the principle of the Apriori algorithm, eliminate the superset of the itemsets that do not meet the minimum support, and meet the minimum support.
  • the itemsets will be retained, and according to the principle of the Apriori algorithm, a subset of the itemsets that satisfy the minimum support is retained, and a larger set is formed by combining the itemsets that satisfy the minimum support as frequent itemsets.
  • the entity word recognition is modeled.
  • the model is a pre-trained model that can extract the entity words in the input text information.
  • the sentence is "Help me find a beautiful dress", and the output of the model is the probability that each word in this sentence is an entity word. Since the training sample is a text sentence about commodity search, and manual annotation is the best way to reflect the sentence in the sentence The product to be searched is marked, so the output of this model should be the highest probability that "skirt" is an entity word. Then "skirt" will be used as the target entity word to find products related to skirts.
  • the target entity word search a preset entity word encoding library to obtain the entity word encoding corresponding to the target entity word;
  • the preset entity word encoding library is obtained by encoding the commodity attribute information and commodity entity words set by the merchant when uploading the commodity. word, look up the entity word code corresponding to the entity word in the entity word code library, so as to obtain the commodity information corresponding to it, in the present embodiment, the entity word code can be stored in a distributed database as an intermediate value, Makes searching for items faster.
  • this embodiment since the frequent itemsets of commodities have been calculated according to the commodities that the user intends to buy and the commodities that have been purchased within a certain period of time, this embodiment only needs to search for the frequent itemsets containing the codes of the target entity words, and then we can obtain Corresponding associated entity word encoding. For example, it is found through calculation that there are many users who like to buy beer while buying diapers, so beer will be used as a related commodity, and beer will be displayed at the same time when users search for diapers, providing users with choices.
  • the commodity attribute information in the code is extracted, and the commodity is searched under the extracted commodity attribute information.
  • the purpose of this embodiment is to reduce the search volume of the commodity and make the search results It can be presented to the user more quickly and improve the user experience.
  • the attribute code of the commodity is combined with the encoding of the entity word, the attribute information of the commodity can be easily extracted from the entity word encoding. If the entity word encoding method is splicing, then only need to The attribute code can be obtained by reverse splitting in the way of splicing. Further, according to the encoding mode of the attribute code, the attribute code is decoded, that is, the corresponding commodity attribute information can be obtained.
  • the entity word recognition in the user's search sentence is modeled, and the entity word related to the commodity in the user's search sentence is extracted, and then the extracted entity word is found in the entity
  • This code can quickly obtain the corresponding product.
  • the code of the associated entity word that appears at the same time and frequently is obtained.
  • the product corresponding to the code of the associated entity word can be quickly obtained, and finally the list of products found can be output. , and display it to the user.
  • strongly related commodities can be quickly obtained by means of entity word coding, which reduces the time cost for users to screen commodities and improves the transaction rate of commodities.
  • the second embodiment of the commodity search data processing method in the embodiment of the present application includes:
  • the one-hot vector is also called a one-hot vector.
  • the method is to use an N-bit state register to encode N states, each state has its own register bit, and at any time, only One bit is valid.
  • a one-hot sparse vector is used to represent each word in the commodity search sentence input by the user, and then each one-hot sparse vector is mapped to a dense vector according to the Embedding algorithm, thereby reducing the dimension of the vector, Improve the computational speed of the model.
  • each dense vector in order to alleviate overfitting, random deactivation processing is performed on each dense vector, in order to temporarily discard some unimportant parameters, so as to improve the stability and robustness of the model.
  • the randomly deactivated vector into the Bi-LSTM layer, that is, the bidirectional LSTM, automatically extract the features of the sentence, and use the dense vector for each word as the input of each time step of the bidirectional LSTM, and then forward the forward direction.
  • the hidden state vector output by LSTM and the hidden state output at each position of each time step of the reverse LSTM are spliced by position to obtain a complete hidden state vector.
  • a random deactivation process can also be performed, and then a linear function layer is entered to map the hidden state vector to the dimension of the number of labels, so as to obtain automatically extracted sentence features.
  • Each label dimension is regarded as the score of classifying words into each label class. If these scores are processed by SoftMax, it is equivalent to refining and classifying each position independently, so that it is impossible to label each position. Use the information that has been marked, therefore, the next step is to enter a layer of CRF for marking.
  • sentence-level sequence labeling is performed after the bidirectional LSTM.
  • the parameter of the CRF layer is a matrix, and each element in the matrix represents the transition score from the current element to the next element. Furthermore, when labeling a location, the label that has been labelled before can be used. Finally, the score of the entire model is equal to the sum of the scores of each position, and the score of each position is obtained by two parts, one part is determined by the output of the LSTM layer, and the other part is determined by the transition matrix of the CRF. Then use SoftMax to get the normalized probability.
  • step 208 specifically includes:
  • first frequent item set and the second frequent item set containing the entity word code and define a first weight and a second weight, wherein the second weight is greater than the first weight ;
  • the entity word code in the frequent item set with the highest weighted confidence degree is the associated entity word code.
  • b ⁇ *x/support ⁇ a ⁇ , purchased products c and d, weighted confidence of c->d support ⁇ c
  • the first weight and the second weight may not only be constants, but may also be variables obtained by calculation and prediction, wherein the prediction method may be based on the intention to purchase goods and the frequent items corresponding to the purchased goods If there are many intersections, the difference between the first weight and the second weight can be appropriately reduced, otherwise, it can be appropriately increased, which is not limited in this embodiment of the present application.
  • the entity word in the search sentence input by the user is identified by the pre-trained entity word recognition model, and the method is to first convert each word in the sentence into a sparse vector, and then map it into a low-dimensional dense vector, In order to alleviate over-fitting, the dense vector is randomly discarded, and then features are extracted through the bidirectional LSTM layer, the CRF layer calculates the word transition probability, and finally SoftMax normalizes the result to obtain the probability that each word in the sentence is an entity word. The entity word with the highest probability is used as the target entity word.
  • the embodiment of the present application can quickly and accurately identify entity words in the text, thereby improving the accuracy of commodity search.
  • the commodity search data processing method in the embodiment of the present application has been described above, and the commodity search data processing apparatus in the embodiment of the present application is described below. Please refer to FIG. 3.
  • the first embodiment of the commodity search data processing device in the embodiment of the present application includes: :
  • the first obtaining module 301 is used to obtain a commodity search sentence input by a user
  • the identification module 302 is configured to input the commodity search sentence into a preset entity word extraction model to perform entity word recognition, and obtain the target entity word in the commodity search sentence;
  • the first search module 303 is configured to search a preset entity word encoding library according to the target entity word, and obtain the entity word encoding corresponding to the target entity word;
  • a determination module 304 configured to obtain the frequent item set corresponding to the entity word code, and determine the associated entity word code corresponding to the entity word code according to the frequent item set;
  • the output module 305 is configured to determine corresponding commodity attribute information according to the entity word code and the associated entity word code, search a preset commodity database according to the commodity attribute information, and output commodity search results.
  • the commodity search data processing device further includes:
  • a receiving module 306 configured to receive a request for adding a new product, wherein the request includes product attribute information and a product entity word;
  • the encoding module 307 is configured to encode the commodity entity word according to the commodity attribute information and the commodity entity word, obtain the entity word encoding and store it in the entity word encoding library, wherein the entity word encoding includes the commodity word Attribute code and product entity word ID.
  • the commodity search data processing device further includes:
  • the second obtaining module 308 is configured to obtain the list of the first commodities that each user intends to purchase and the list of the second commodities that have been purchased within the preset duration;
  • the extraction module 309 is configured to extract the entity words corresponding to each commodity in the first commodity list and the second commodity list, respectively, to obtain a plurality of entity word lists;
  • the second search module 310 is configured to search the entity word encoding library to obtain the word encoding list corresponding to each entity word list;
  • the calculation module 311 is configured to calculate the support degree between the word codes in the word code list, and obtain the frequent itemsets corresponding to the entity words.
  • the computing module 311 includes:
  • the combination sub-module 3111 is used to combine the word codes in the word code list corresponding to the first commodity list to obtain a plurality of first item sets, and to combine the word codes in the word code list corresponding to the second commodity list.
  • the word codes are combined to obtain a plurality of second item sets; the first support degree of each first item set and the second support degree of each second item set are calculated respectively;
  • the obtaining sub-module 3112 is configured to obtain a plurality of first frequent item sets according to the first support degrees, and obtain a plurality of second frequent item sets according to the second support degrees.
  • the obtaining submodule 3112 includes:
  • an itemset determination unit configured to take the first itemset containing a word code as the minimum first itemset, and take the second itemset containing a word code as the minimum second itemset;
  • the first judgment unit is used to judge whether the support degree of each minimum first item set is less than the preset minimum support degree respectively, and if it is less than, then remove the minimum first item set and the superimposition of the minimum first item set. set, if not less than, the minimum first item set and the subset of the minimum first item set are used as the first frequent itemset;
  • the second judging unit is configured to judge whether the support degree of each minimum second item set is less than the minimum support degree, and if it is less than the minimum second item set, remove the minimum second item set and the superimposition of the minimum second item set. set, if not less than, the minimum second itemset and the subset of the minimum second itemsets are used as the second frequent itemsets;
  • an item set increasing unit used to increase the first item set with the number of word codes to be the minimum first item set, and increase the second item set of the word code quantity by one to be the minimum second item set;
  • a repeating execution unit configured to repeatedly execute the itemset determining unit, the first judging unit, the second judging unit, and the itemset adding unit until the minimum first item set, the minimum second item set
  • the supports of the itemsets are all greater than the minimum support.
  • the entity word recognition in the user's search sentence is modeled, and the entity word related to the commodity in the user's search sentence is extracted, and then the extracted entity word is found in the entity
  • This code can quickly obtain the corresponding product.
  • the code of the associated entity word that appears at the same time and frequently is obtained.
  • the product corresponding to the code of the associated entity word can be quickly obtained, and finally the list of products found can be output. , and display it to the user.
  • strongly related commodities can be quickly obtained by means of entity word coding, which reduces the time cost for users to screen commodities and improves the transaction rate of commodities.
  • the second embodiment of the commodity search data processing apparatus in the embodiment of the present application includes:
  • the first obtaining module 301 is used to obtain a commodity search sentence input by a user
  • the identification module 302 is configured to input the commodity search sentence into a preset entity word extraction model to perform entity word recognition, and obtain the target entity word in the commodity search sentence;
  • the first search module 303 is configured to search a preset entity word encoding library according to the target entity word, and obtain the entity word encoding corresponding to the target entity word;
  • a determination module 304 configured to obtain the frequent item set corresponding to the entity word code, and determine the associated entity word code corresponding to the entity word code according to the frequent item set;
  • the output module 305 is configured to determine corresponding commodity attribute information according to the entity word code and the associated entity word code, search a preset commodity database according to the commodity attribute information, and output commodity search results.
  • the identification module 302 is specifically used for:
  • the label transition matrix is input into the SoftMax layer for normalization to obtain the entity word probability corresponding to each word in the commodity search sentence, and the word corresponding to the highest entity word probability is used as the target entity word.
  • the determining module 304 is specifically configured to:
  • first frequent item set and the second frequent item set containing the entity word code and define a first weight and a second weight, wherein the second weight is greater than the first weight ;
  • the entity word code in the frequent item set with the highest weighted confidence degree is the associated entity word code.
  • the entity word in the search sentence input by the user is identified by the pre-trained entity word recognition model, and the method is to first convert each word in the sentence into a sparse vector, and then map it into a low-dimensional dense vector, In order to alleviate over-fitting, the dense vector is randomly discarded, and then features are extracted through the bidirectional LSTM layer, the CRF layer calculates the word transition probability, and finally SoftMax normalizes the result to obtain the probability that each word in the sentence is an entity word. The entity word with the highest probability is used as the target entity word.
  • the embodiment of the present application can quickly and accurately identify entity words in the text, thereby improving the accuracy of commodity search.
  • FIG. 5 is a schematic structural diagram of a computer device provided by an embodiment of the present application.
  • the computer device 500 may vary greatly due to different configurations or performance, and may include one or more processors (central processing units, CPU) 510 (eg, one or more processors) and memory 520, one or more storage media 530 (eg, one or more mass storage devices) that store applications 533 or data 532.
  • the memory 520 and the storage medium 530 may be short-term storage or persistent storage.
  • the program stored in the storage medium 530 may include one or more modules (not shown in the figure), and each module may include a series of instructions to operate on the computer device 500 .
  • the processor 510 may be configured to communicate with the storage medium 530 to execute a series of instruction operations in the storage medium 530 on the computer device 500 .
  • Computer device 500 may also include one or more power supplies 540, one or more wired or wireless network interfaces 550, one or more input and output interfaces 560, and/or, one or more operating systems 531, such as Windows Server, Mac OS X, Unix, Linux, FreeBSD, etc.
  • operating systems 531 such as Windows Server, Mac OS X, Unix, Linux, FreeBSD, etc.
  • the present application also provides a computer device, the computer device is any device that can execute the steps of the commodity search data processing methods in the above embodiments, the computer device includes a memory and a processor, and the memory stores a computer-readable memory The instructions, when the computer-readable instructions are executed by the processor, cause the processor to execute the steps of the commodity search data processing method in the above embodiments.
  • the present application also provides a computer-readable storage medium.
  • the computer-readable storage medium may be a non-volatile computer-readable storage medium.
  • the computer-readable storage medium may also be a volatile computer-readable storage medium. Instructions are stored in the computer-readable storage medium, and when the instructions are executed on a computer, make the computer execute the steps of the commodity search data processing method.
  • the integrated unit if implemented in the form of a software functional unit and sold or used as an independent product, may be stored in a computer-readable storage medium.
  • the technical solutions of the present application can be embodied in the form of software products in essence, or the parts that contribute to the prior art, or all or part of the technical solutions, and the computer software products are stored in a storage medium , including several instructions for causing a computer device (which may be a personal computer, a server, or a network device, etc.) to execute all or part of the steps of the methods described in the various embodiments of the present application.
  • the aforementioned storage medium includes: U disk, mobile hard disk, read-only memory (ROM), random access memory (RAM), magnetic disk or optical disk and other media that can store program codes .

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Probability & Statistics with Applications (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)

Abstract

一种商品搜索数据处理方法、装置、设备及存储介质。该方法包括:获取用户输入的商品搜索语句(101);将所述商品搜索语句输入预置实体词提取模型进行实体词识别,得到所述商品搜索语句中的目标实体词(102);根据所述目标实体词,查找预置实体词编码库,得到所述目标实体词对应的实体词编码(103);获取所述实体词编码对应的频繁项集,并根据所述频繁项集,确定所述实体词编码对应的关联实体词编码(104);根据所述实体词编码及所述关联实体词编码,确定对应的商品属性信息,并根据所述商品属性信息查找预置商品数据库,输出商品搜索结果(105)。该方法能快速提取用户搜索语句中的实体词,并精准地输出与用户搜索意图相匹配的强关联商品。

Description

商品搜索数据处理方法、装置、设备及存储介质
本申请要求于2021年02月23日提交中国专利局、申请号为202110198979.8、发明名称为“商品搜索数据处理方法、装置、设备及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在申请中。
技术领域
本申请涉及大数据领域,尤其涉及一种商品搜索数据处理方法、装置、设备及存储介质。
背景技术
互联网购物是现今社会主流的购物方式之一,用户只需登录到电商网站搜索自己想要购买的商品,就能获得与自己搜索意图相匹配的相关商品,进而挑选出要购买的商品并下单成交。而各电商网站为了获得更多的成交量,需要对商品搜索的方式不断地优化和改进,使呈现出来的商品更符合用户的搜索意图,提高用户体验的同时促成交易。
发明人意识到,现有技术中,对于商品搜索数据的处理方式繁多,大多是基于搜索关键词和商品标题的匹配算法,或者基于搜索关键词和商品分类信息的匹配算法,这些搜索数据处理方式可能会因关键词提取不准确导致匹配商品不准确、或因匹配到的商品数据量过大导致用户难以筛选意向商品的问题。另外,现有的对商品搜索数据的处理方法并未涉及到对用户不同购买意向强度的商品数据进行筛选处理,因而商品搜索结果很难符合用户预期。
发明内容
本申请的主要目的在于解决商品搜索数据的处理方式单一导致的商品搜索结果不准确的技术问题。
本申请第一方面提供了一种商品搜索数据处理方法,包括:
获取用户输入的商品搜索语句;
将所述商品搜索语句输入预置实体词提取模型进行实体词识别,得到所述商品搜索语句中的目标实体词;
根据所述目标实体词,查找预置实体词编码库,得到所述目标实体词对应的实体词编码;
获取所述实体词编码对应的频繁项集,并根据所述频繁项集,确定所述实体词编码对应的关联实体词编码;
根据所述实体词编码及所述关联实体词编码,确定对应的商品属性信息,并根据所述商品属性信息查找预置商品数据库,输出商品搜索结果。
本申请第二方面提供了一种计算机设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述计算机设备执行以下所述的商品搜索数据处理方法的步骤:
获取用户输入的商品搜索语句;
将所述商品搜索语句输入预置实体词提取模型进行实体词识别,得到所述商品搜索语句中的目标实体词;
根据所述目标实体词,查找预置实体词编码库,得到所述目标实体词对应的实体词编码;
获取所述实体词编码对应的频繁项集,并根据所述频繁项集,确定所述实体词编码对应的关联实体词编码;
根据所述实体词编码及所述关联实体词编码,确定对应的商品属性信息,并根据所述商品属性信息查找预置商品数据库,输出商品搜索结果。
本申请的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行如下所述的商品搜索数据处理方法的步骤:
获取用户输入的商品搜索语句;
将所述商品搜索语句输入预置实体词提取模型进行实体词识别,得到所述商品搜索语句中的目标实体词;
根据所述目标实体词,查找预置实体词编码库,得到所述目标实体词对应的实体词编码;
获取所述实体词编码对应的频繁项集,并根据所述频繁项集,确定所述实体词编码对应的关联实体词编码;
根据所述实体词编码及所述关联实体词编码,确定对应的商品属性信息,并根据所述商品属性信息查找预置商品数据库,输出商品搜索结果。
本申请第四方面提供了一种商品搜索数据处理装置,包括:
第一获取模块,用于获取用户输入的商品搜索语句;
识别模块,用于将所述商品搜索语句输入预置实体词提取模型进行实体词识别,得到所述商品搜索语句中的目标实体词;
第一查找模块,用于根据所述目标实体词,查找预置实体词编码库,得到所述目标实体词对应的实体词编码;
确定模块,用于获取所述实体词编码对应的频繁项集,并根据所述频繁项集,确定所述实体词编码对应的关联实体词编码;
输出模块,用于根据所述实体词编码及所述关联实体词编码,确定对应的商品属性信息,并根据所述商品属性信息查找预置商品数据库,输出商品搜索结果。
本申请提供的技术方案中,为了提高对用户搜索意图的识别,对用户搜索语句中的实体词识别进行建模,提取出用户搜索语句中与商品相关的实体词,再查找提取到的实体词在实体词编码库中对应的编码,这个编码能快速获取到与之对应的产品。然后再根据这个编码获取到与之同时且频繁出现的关联实体词编码,根据这个关联实体词编码,去搜索商品数据库,能快速获得与关联实体词编码对应的产品,最后输出查找到的产品列表,并展示给用户。本申请通过快速提取搜索语句中的实体词并获得关联实体词,扩展了搜索数据的处理方式,增加了商品搜索范围,从而精准输出与用户搜索意图相匹配的强关联商品。
附图说明
图1为本申请实施例中商品搜索数据处理方法的第一个实施例示意图;
图2为本申请实施例中商品搜索数据处理方法的第二个实施例示意图;
图3为本申请实施例中商品搜索数据处理装置的第一个实施例示意图;
图4为本申请实施例中商品搜索数据处理装置的第二个实施例示意图;
图5为本申请实施例中计算机设备的一个实施例示意图。
具体实施方式
本申请实施例提供了一种商品搜索数据处理方法、装置、设备及存储介质。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述 的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本申请实施例的具体流程进行描述,请参阅图1,本申请实施例中商品搜索数据处理方法的第一个实施例包括:
101、获取用户输入的商品搜索语句;
可以理解的是,本申请的执行主体可以为商品搜索数据处理装置,还可以是终端或者服务器,具体此处不做限定。本申请实施例以服务器为执行主体为例进行说明。
本实施例中,商品搜索语句可以是用户输入的一个字、一个词、一句话或者一段话等等,例如“鞋”、“衣服”、“好看的袜子”、“我想买一条裤子”、“我想给妈妈送生日礼物,帮我找条合适的裙子”等等,这些商品搜索语句可以是用户直接在输入框输入的文本,也可以是通过语音识别出来的文本,因此,可能会存在一些比较口语化的搜索语句,这些语句都将被输入到实体词提取模型进行识别,进而提炼出符合用户搜索意图的目标实体词。
本实施例中,获取到用户输入的商品搜索语句之后,还可以把这些语句存储起来,作为后续训练实体词提取模型时的语料训练数据,使得模型更适合本申请的商品搜索应用场景。
可选的,在步骤101之前,还包括:
接收新增商品请求,其中,所述请求包括商品属性信息及商品实体词;
根据所述商品属性信息及所述商品实体词,对所述商品实体词进行编码,得到实体词编码并存入实体词编码库中,其中,所述实体词编码包括商品属性码及商品实体词ID。
本可选实施例是对商品信息的预处理,商家在电商平台上传商品时,为自己上传的商品预先标记好了商品的属性信息和商品对应的实体词,在发送新增商品请求时,将这些数据传输给接收端,接收端对接收到的商品属性信息进行编码,在编码之前会先查找是否已经存在相同的实体词编码,如果存在的话,就直接引用已存在的实体词编码,如果不存在,则按照预置的编码规则,对接收到的商品实体词进行编码,其中,实体词编码包括商品的属性码和实体词ID,以拼接的方式合并。编码规则可以根据系统时间生成唯一的时间戳、或者根据Leaf算法等可以生成唯一编码的方法,在此不一一枚举。
本可选实施例中,所述商品属性信息可以是多维度的商品属性信息,例如,所述商品属性信息可以是商品的材质、颜色、能效、品牌、尺寸、容量、重量、功率等等,这些商品属性信息可以是由商家在上传商品时在可视化的界面进行填写或选择设置的。
可选的,在步骤101之前,还包括:
S10、获取预置时长内各用户意向购买的第一商品列表以及已购买的第二商品列表;
S20、分别提取所述第一商品列表、所述第二商品列表中各商品对应的实体词,得到多个实体词列表;
S30、查找所述实体词编码库,得到所述各实体词列表对应的词编码列表;
S40、计算所述各词编码列表中各词编码之间的支持度,得到所述各实体词对应的频繁项集。
本可选实施例中,为了计算与用户搜索商品的关联商品,需要预先对商品数据库中的商品进行关联度分析,其中,关联度分析算法是参照Apriori算法设计改进得到的,使算法更适用于商品的关联关系分析,以及计算速度更快捷。本实施例进行关联度分析的数据来源主要是全网用户意向购买的商品和已经购买的商品,其中意向购买的商品可以是用户购物车里面的商品,或者是收藏的商品,本实施例不做限制。
本可选实施例中,区分单个用户的意向购买的商品和已购买的商品,对全网用户数据中的这两种不同购买欲望强度的商品进行关联度分析,最后匹配到关联度最高的商品编码,根据这个关联商品编码去搜索商品数据库,得到关联商品,其中,关联商品将按照商品的热度、评分、成交量、价格等因素综合排序,并将综合得分较高的商品优先展示给用户,使搜索到的关联商品更符合用户预期,从而促成交易。
可选的,上述步骤S40具体包括:
S401、将所述第一商品列表对应的词编码列表中的各词编码进行组合,得到多个第一项集,以及将所述第二商品列表对应的词编码列表中的各词编码进行组合,得到多个第二项集;
S402、分别计算所述各第一项集的第一支持度以及所述各第二项集的第二支持度;
S403、根据所述各第一支持度,得到多个第一频繁项集,以及根据所述各第二支持度,得到多个第二频繁项集。
本可选实施例中,获取到单个用户意向购买商品对应的实体词编码和已购买商品对应的实体词编码之后,分别将这些词编码进行组合,得到多个项集,例如,某用户购物车中有商品[“奶粉”,“纸尿裤”,“玩具”],这些商品对应的词编码为[“a1”,“a2”,“a3”],那么,这个用户购物车商品的项集有[“a1”],[“a2”],[“a3”],[“a1”,“a2”],[“a1”,“a3”],[“a2”,“a3”],[“a1”,“a2”,“a3”]7个,而已购买商品的第二项集也是同理可得,通过排列组合的方式,可以得到不同商品的组合,即本实施例中的项集。
本可选实施例中,区分所述各第一项集和所述各第二项集的支持度,即计算所述各第一项集在所有第一项集中的支持度,得到第一支持度,以及计算所述各第二项集在所有第二项集中的支持度,得到第二支持度。其中支持度的计算方法为该项集在所有项集中所占的比例,例如,一共有7个第一项集,其中某一项集出现了两次,那么这一项集的支持度为2/7。具体化为例如,有2000个用户的购物车中出现了[“奶粉”,“纸尿裤”]这一项集,而全网用户的购物车产品组成的项集总数是40000,那么[“奶粉”,“纸尿裤”]这一项集的支持度为2000/40000。
可选的,上述步骤S403具体包括:
S1、以包含一个词编码的所述第一项集为最小第一项集,以及以包含一个词编码的所述第二项集为最小第二项集;
S2、分别判断所述各最小第一项集的支持度是否小于预置最小支持度,若小于,则剔除所述最小第一项集和所述最小第一项集的超集,若不小于,则将所述最小第一项集和所述最小第一项集的子集作为第一频繁项集;
S3、分别判断所述各最小第二项集的支持度是否小于所述最小支持度,若小于,则剔除所述最小第二项集和所述最小第二项集的超集,若不小于,则将所述最小第二项集和所述最小第二项集的子集作为第二频繁项集;
S4、增加一个词编码数量的所述第一项集为所述最小第一项集,以及增加一个所述词编码数量的所述第二项集为所述最小第二项集;
S5、重复执行S1-S4,直至所述最小第一项集、所述最小第二项集的支持度均大于所述最小支持度。
本可选实施例中,根据Apriori算法的原理:如果某个项集是频繁的,那么它的所有子集也是频繁的;如果某个项集是非频繁的,那么它的所有超集也是非频繁的。延伸出了本实施例中频繁项集的计算方法,能以最小的计算量获得全网用户不同购买欲望强度的商品频繁项集。计算方法是,先以单元素项集开始,对不满足最小支持度的项集进行剔除,并根据Apriori算法的原理,剔除不满足最小支持度的项集的超集,而满足最小支持度的项集 将被保留,并根据Apriori算法的原理,保留满足最小支持度的项集的子集,通过组合满足最小支持度的项集来形成更大的集合,作为频繁项集。
102、将所述商品搜索语句输入预置实体词提取模型进行实体词识别,得到所述商品搜索语句中的目标实体词;
本实施例中,为了提高搜索语句中实体词识别的精准度,对实体词识别进行建模,该模型为预先训练完成的模型,能提取到输入的文本信息中的实体词,例如,输入的语句为“帮我找一条好看的裙子”,模型的输出就是这句子中各字词是实体词的概率,由于训练样本为关于商品搜索的文本语句,且人工标注时是对语句中最能体现所要搜索的商品进行标注的,因此本模型输出应为“裙子”为实体词的概率最高。那么“裙子”将被作为目标实体词,进而去查找和裙子相关的商品。
103、根据所述目标实体词,查找预置实体词编码库,得到所述目标实体词对应的实体词编码;
本实施例中,预置的实体词编码库是通过对商家在上传商品的时候设置的商品属性信息和商品实体词进行编码得到的,当识别到用户搜索语句中的实体词后,利用这个实体词,在所述实体词编码库中查找该实体词对应的实体词编码,从而获得与之对应的商品信息,本实施例中,实体词编码作为中间值,可以存储在分布式的数据库中,使商品的搜索更加快捷。
104、获取所述实体词编码对应的频繁项集,并根据所述频繁项集,确定所述实体词编码对应的关联实体词编码;
本实施例中,由于商品的频繁项集已经根据一定时长内用户意向购买的商品和已购买的商品中计算得到,本实施例只需查找包含有目标实体词编码的频繁项集,就能得到对应的关联实体词编码。例如,通过计算发现,存在很多用户在购买纸尿裤的同时,还喜欢购买啤酒,那么啤酒将作为关联商品,在用户搜索纸尿裤的时候,同时展示啤酒,提供给用户选择。
105、根据所述实体词编码及所述关联实体词编码,确定对应的商品属性信息,并根据所述商品属性信息查找预置商品数据库,输出商品搜索结果。
本实施例中,得到实体词编码和关联词编码之后,提取到编码中的商品属性信息,在提取到的商品属性信息下,查找商品,本实施例的目的是减少商品的搜索量,使搜索结果能够更快速地呈现给用户,提高用户的体验。其中,由于在对实体词进行编码,结合了商品的属性码,因此,能够很容易地在实体词编码中提取到商品的属性信息,若实体词编码的方式为拼接,那么,此处只需按拼接的方式进行反向拆分,就能得到属性码。再进一步按照属性码的编码方式,对属性码进行解码,即能得到对应的商品属性信息。
本申请实施例中,为了提高对用户搜索意图的识别,对用户搜索语句中的实体词识别进行建模,提取出用户搜索语句中与商品相关的实体词,再查找提取到的实体词在实体词编码库中对应的编码,这个编码能快速获取到与之对应的产品。然后再根据这个编码获取到与之同时且频繁出现的关联实体词编码,根据这个关联实体词编码,去搜索商品数据库,能快速获得与关联实体词编码对应的产品,最后输出查找到的产品列表,并展示给用户。本申请通过实体词编码的方式能快速获取到强关联的商品,减少了用户筛选商品的时间成本,提高了商品的成交率。
请参阅图2,本申请实施例中商品搜索数据处理方法的第二个实施例包括:
201、获取用户输入的商品搜索语句;
202、将所述商品搜索语句转化为多个one-hot稀疏向量并映射为稠密向量;
203、对所述各稠密向量进行随机失活处理,得到多个新的稠密向量;
204、将所述各新的稠密向量输入所述双向LSTM层进行特征提取,得到隐状态特征序列;
205、将所述隐状态特征序列输入所述CRF层进行词性标签的转移概率计算,得到标签转移矩阵;
206、将所述标签转移矩阵输入所述SoftMax层进行归一化处理,得到所述商品搜索语句中各字词对应的实体词概率,并将最高实体词概率对应的字词作为目标实体词;
本实施例中,one-hot向量又称为独热向量,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有他独立的寄存器位,并且在任意时候,其中只有一位有效。本实施例中,利用one-hot稀疏向量来表示用户输入的商品搜索语句中的每个字词,再根据Embedding算法,把每个one-hot稀疏向量映射为稠密向量,从而降低向量的维度,提高模型的计算速度。
本实施例中,为了缓解过拟合,对各个稠密向量进行随机失活处理,目的是暂时丢弃一些不重要的参数,使得模型的稳定性和鲁棒性提高。接着,将随机失活处理后的向量输入到Bi-LSTM层,也就是双向LSTM中,自动提取句子的特征,将各字词对于的稠密向量作为双向LSTM各个时间步的输入,再将正向LSTM输出的隐状态向量与反向LSTM的各个时间步在各个位置输出的隐状态进行按位置拼接,得到完整的隐状态向量。
本实施例中,在双向LSTM层之后,还可以进行一次随机失活处理,之后再进入一个线性函数层,将隐状态向量映射到标签数的维度,从而得到自动提取的句子特征,可以把每个标签维度视作是将字词分类到各个标签类的分值,如果再对这些分值进行SoftMax处理的话,就相当于对各个位置独立进行细化分类,这样对各个位置进行标注时就无法利用已经标注过的信息,因此,接下来要进入一层CRF进行标注。
本实施例中,在双向LSTM之后,进行句子级别的序列标注,CRF层的参数是一个矩阵,矩阵中各元素表示当前元素到下一个元素的转移得分。进而在为一个位置进行标注的时候,可以利用此前已经标注过的标签。最后,整个模型的打分等于各个位置的打分之和,而每个位置的打分由两部分得到,一部分是由LSTM层输出决定的,另一部分是由CRF的转移矩阵决定的。进而利用SoftMax得到归一化后的概率。
207、根据所述目标实体词,查找预置实体词编码库,得到所述目标实体词对应的实体词编码;
208、获取所述实体词编码对应的频繁项集,并根据所述频繁项集,确定所述实体词编码对应的关联实体词编码;
可选的,步骤208具体包括:
获取包含所述实体词编码的所述第一频繁项集和所述第二频繁项集,并定义第一权值和第二权值,其中所述第二权值大于所述第一权值;
分别计算所述实体词编码与所述各第一频繁项集之间的第一置信度,以及分别计算所述实体词编码与所述各第二频繁项集之间的第二置信度;
分别计算所述各第一置信度与所述第一权值的乘积,得到第一加权置信度,以及分别计算所述各第二置信度与所述第二权值的乘积,得到第二加权置信度;
根据所述第一加权置信度以及所述第二加权置信度,确定加权置信度最高的频繁项集中的实体词编码为关联实体词编码。
本可选实施例中,置信度是针对一条规则来定义的,a->b的置信度=支持度{a|b}/支持度{a},其中,a|b表示ab的并集。而加权置信度是为不同购买欲望强度的项集赋予不同的权重值,假设用户意向购买商品的权重值为x,已购买商品的权重值为y,那么意向购买商品a和b,a->b的加权置信度=支持度{a|b}*x/支持度{a},已购买商品c和d,c->d的加权置信度=支持度{c|d}*y/支持度{c}。
本可选实施例中,所述第一权值和第二权值可以不只是常量,也可以是通过计算预测得到的变量,其中预测的方法可以基于意向购买商品和已购买商品对应的频繁项集的交集 来预测,若交集较多,则所述第一权值和所述第二权值的差值可以适当缩小,否则可以适当拉大,本申请实施例不做限制。
209、根据所述实体词编码及所述关联实体词编码,确定对应的商品属性信息,并根据所述商品属性信息查找预置商品数据库,输出商品搜索结果。
本申请实施例中,通过预先训练好的实体词识别模型识别用户输入的搜索语句中的实体词,方法是先将语句中的各字词转化为稀疏向量,再映射为低维的稠密向量,为了缓解过拟合,对稠密向量进行随机丢弃,之后再经过双向LSTM层提取特征,CRF层计算词转移概率,最后SoftMax归一化结果,得到语句中各字词为实体词的概率,再将概率最高的实体词作为目标实体词。本申请实施例能快速且精准地识别出文本中的实体词,进而提高商品搜索的准确度。
上面对本申请实施例中商品搜索数据处理方法进行了描述,下面对本申请实施例中商品搜索数据处理装置进行描述,请参阅图3,本申请实施例中商品搜索数据处理装置第一个实施例包括:
第一获取模块301,用于获取用户输入的商品搜索语句;
识别模块302,用于将所述商品搜索语句输入预置实体词提取模型进行实体词识别,得到所述商品搜索语句中的目标实体词;
第一查找模块303,用于根据所述目标实体词,查找预置实体词编码库,得到所述目标实体词对应的实体词编码;
确定模块304,用于获取所述实体词编码对应的频繁项集,并根据所述频繁项集,确定所述实体词编码对应的关联实体词编码;
输出模块305,用于根据所述实体词编码及所述关联实体词编码,确定对应的商品属性信息,并根据所述商品属性信息查找预置商品数据库,输出商品搜索结果。
可选的,所述商品搜索数据处理装置还包括:
接收模块306,用于接收新增商品请求,其中,所述请求包括商品属性信息及商品实体词;
编码模块307,用于根据所述商品属性信息及所述商品实体词,对所述商品实体词进行编码,得到实体词编码并存入实体词编码库中,其中,所述实体词编码包括商品属性码及商品实体词ID。
可选的,所述商品搜索数据处理装置还包括:
第二获取模块308,用于获取预置时长内各用户意向购买的第一商品列表以及已购买的第二商品列表;
提取模块309,用于分别提取所述第一商品列表、所述第二商品列表中各商品对应的实体词,得到多个实体词列表;
第二查找模块310,用于查找所述实体词编码库,得到所述各实体词列表对应的词编码列表;
计算模块311,用于计算所述各词编码列表中各词编码之间的支持度,得到所述各实体词对应的频繁项集。
可选的,所述计算模块311包括:
组合子模块3111,用于将所述第一商品列表对应的词编码列表中的各词编码进行组合,得到多个第一项集,以及将所述第二商品列表对应的词编码列表中的各词编码进行组合,得到多个第二项集;分别计算所述各第一项集的第一支持度以及所述各第二项集的第二支持度;
得到子模块3112,用于根据所述各第一支持度,得到多个第一频繁项集,以及根据所述各第二支持度,得到多个第二频繁项集。
可选的,所述得到子模块3112包括:
项集确定单元,用于以包含一个词编码的所述第一项集为最小第一项集,以及以包含一个词编码的所述第二项集为最小第二项集;
第一判断单元,用于分别判断所述各最小第一项集的支持度是否小于预置最小支持度,若小于,则剔除所述最小第一项集和所述最小第一项集的超集,若不小于,则将所述最小第一项集和所述最小第一项集的子集作为第一频繁项集;
第二判断单元,用于分别判断所述各最小第二项集的支持度是否小于所述最小支持度,若小于,则剔除所述最小第二项集和所述最小第二项集的超集,若不小于,则将所述最小第二项集和所述最小第二项集的子集作为第二频繁项集;
项集增加单元,用于增加一个词编码数量的所述第一项集为所述最小第一项集,以及增加一个所述词编码数量的所述第二项集为所述最小第二项集;
重复执行单元,用于重复执行所述项集确定单元、所述第一判断单元、所述第二判断单元及所述项集增加单元,直至所述最小第一项集、所述最小第二项集的支持度均大于所述最小支持度。
本申请实施例中,为了提高对用户搜索意图的识别,对用户搜索语句中的实体词识别进行建模,提取出用户搜索语句中与商品相关的实体词,再查找提取到的实体词在实体词编码库中对应的编码,这个编码能快速获取到与之对应的产品。然后再根据这个编码获取到与之同时且频繁出现的关联实体词编码,根据这个关联实体词编码,去搜索商品数据库,能快速获得与关联实体词编码对应的产品,最后输出查找到的产品列表,并展示给用户。本申请通过实体词编码的方式能快速获取到强关联的商品,减少了用户筛选商品的时间成本,提高了商品的成交率。
请参阅图4,本申请实施例中商品搜索数据处理装置的第二个实施例包括:
第一获取模块301,用于获取用户输入的商品搜索语句;
识别模块302,用于将所述商品搜索语句输入预置实体词提取模型进行实体词识别,得到所述商品搜索语句中的目标实体词;
第一查找模块303,用于根据所述目标实体词,查找预置实体词编码库,得到所述目标实体词对应的实体词编码;
确定模块304,用于获取所述实体词编码对应的频繁项集,并根据所述频繁项集,确定所述实体词编码对应的关联实体词编码;
输出模块305,用于根据所述实体词编码及所述关联实体词编码,确定对应的商品属性信息,并根据所述商品属性信息查找预置商品数据库,输出商品搜索结果。
可选的,所述识别模块302具体用于:
将所述商品搜索语句转化为多个one-hot稀疏向量并映射为稠密向量;
对所述各稠密向量进行随机失活处理,得到多个新的稠密向量;
将所述各新的稠密向量输入所述双向LSTM层进行特征提取,得到隐状态特征序列;
将所述隐状态特征序列输入所述CRF层进行词性标签的转移概率计算,得到标签转移矩阵;
将所述标签转移矩阵输入所述SoftMax层进行归一化处理,得到所述商品搜索语句中各字词对应的实体词概率,并将最高实体词概率对应的字词作为目标实体词。
可选的,所述确定模块304具体用于:
获取包含所述实体词编码的所述第一频繁项集和所述第二频繁项集,并定义第一权值和第二权值,其中所述第二权值大于所述第一权值;
分别计算所述实体词编码与所述各第一频繁项集之间的第一置信度,以及分别计算所述实体词编码与所述各第二频繁项集之间的第二置信度;
分别计算所述各第一置信度与所述第一权值的乘积,得到第一加权置信度,以及分别计算所述各第二置信度与所述第二权值的乘积,得到第二加权置信度;
根据所述第一加权置信度以及所述第二加权置信度,确定加权置信度最高的频繁项集中的实体词编码为关联实体词编码。
本申请实施例中,通过预先训练好的实体词识别模型识别用户输入的搜索语句中的实体词,方法是先将语句中的各字词转化为稀疏向量,再映射为低维的稠密向量,为了缓解过拟合,对稠密向量进行随机丢弃,之后再经过双向LSTM层提取特征,CRF层计算词转移概率,最后SoftMax归一化结果,得到语句中各字词为实体词的概率,再将概率最高的实体词作为目标实体词。本申请实施例能快速且精准地识别出文本中的实体词,进而提高商品搜索的准确度。
上面图3和图4从模块化功能实体的角度对本申请实施例中的商品搜索数据处理装置进行详细描述,下面从硬件处理的角度对本申请实施例中计算机设备进行详细描述。
图5是本申请实施例提供的一种计算机设备的结构示意图,该计算机设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对计算机设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在计算机设备500上执行存储介质530中的一系列指令操作。
计算机设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本申请还提供一种计算机设备,该计算机设备是可以执行上述各实施例中商品搜索数据处理方法的步骤的任何一种设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述商品搜索数据处理方法的步骤。
本申请还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述商品搜索数据处理方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (20)

  1. 一种商品搜索数据处理方法,其中,所述商品搜索数据处理方法包括:
    获取用户输入的商品搜索语句;
    将所述商品搜索语句输入预置实体词提取模型进行实体词识别,得到所述商品搜索语句中的目标实体词;
    根据所述目标实体词,查找预置实体词编码库,得到所述目标实体词对应的实体词编码;
    获取所述实体词编码对应的频繁项集,并根据所述频繁项集,确定所述实体词编码对应的关联实体词编码;
    根据所述实体词编码及所述关联实体词编码,确定对应的商品属性信息,并根据所述商品属性信息查找预置商品数据库,输出商品搜索结果。
  2. 根据权利要求1所述的商品搜索数据处理方法,其中,所述实体词提取模型包括双向LSTM层、CRF层及SoftMax层,所述将所述商品搜索语句输入预置实体词提取模型进行实体词识别,得到所述商品搜索语句中的目标实体词包括:
    将所述商品搜索语句转化为多个one-hot稀疏向量并映射为稠密向量;
    对所述各稠密向量进行随机失活处理,得到多个新的稠密向量;
    将所述各新的稠密向量输入所述双向LSTM层进行特征提取,得到隐状态特征序列;
    将所述隐状态特征序列输入所述CRF层进行词性标签的转移概率计算,得到标签转移矩阵;
    将所述标签转移矩阵输入所述SoftMax层进行归一化处理,得到所述商品搜索语句中各字词对应的实体词概率,并将最高实体词概率对应的字词作为目标实体词。
  3. 根据权利要求1所述的商品搜索数据处理方法,其中,在所述获取用户输入的商品搜索语句之前,还包括:
    接收新增商品请求,其中,所述请求包括商品属性信息及商品实体词;
    根据所述商品属性信息及所述商品实体词,对所述商品实体词进行编码,得到实体词编码并存入实体词编码库中,其中,所述实体词编码包括商品属性码及商品实体词ID。
  4. 根据权利要求3所述的商品搜索数据处理方法,其中,在所述获取用户输入的商品搜索语句之前,还包括:
    获取预置时长内各用户意向购买的第一商品列表以及已购买的第二商品列表;
    分别提取所述第一商品列表、所述第二商品列表中各商品对应的实体词,得到多个实体词列表;
    查找所述实体词编码库,得到所述各实体词列表对应的词编码列表;
    计算所述各词编码列表中各词编码之间的支持度,得到所述各实体词对应的频繁项集。
  5. 根据权利要求4所述的商品搜索数据处理方法,其中,所述计算所述词编码列表中各词编码之间的支持度,得到所述各实体词对应的频繁项集包括:
    将所述第一商品列表对应的词编码列表中的各词编码进行组合,得到多个第一项集,以及将所述第二商品列表对应的词编码列表中的各词编码进行组合,得到多个第二项集;
    分别计算所述各第一项集的第一支持度以及所述各第二项集的第二支持度;
    根据所述各第一支持度,得到多个第一频繁项集,以及根据所述各第二支持度,得到多个第二频繁项集。
  6. 根据权利要求5所述的商品搜索数据处理方法,其中,所述根据所述各第一支持度,得到多个第一频繁项集,以及根据所述各第二支持度,得到多个第二频繁项集包括:
    以包含一个词编码的所述第一项集为最小第一项集,以及以包含一个词编码的所述第二项集为最小第二项集;
    分别判断所述各最小第一项集的支持度是否小于预置最小支持度,若小于,则剔除所述最小第一项集和所述最小第一项集的超集,若不小于,则将所述最小第一项集和所述最小第一项集的子集作为第一频繁项集;
    分别判断所述各最小第二项集的支持度是否小于所述最小支持度,若小于,则剔除所述最小第二项集和所述最小第二项集的超集,若不小于,则将所述最小第二项集和所述最小第二项集的子集作为第二频繁项集;
    增加一个词编码数量的所述第一项集为所述最小第一项集,以及增加一个所述词编码数量的所述第二项集为所述最小第二项集,并继续重复执行判断所述各最小第一项集的支持度是否小于预置最小支持度步骤,以及重复执行判断所述各最小第二项集的支持度是否小于所述最小支持度步骤;
    当所述最小第一项集、所述最小第二项集的支持度均大于所述最小支持度时,停止增加所述第一项集和所述第二项集。
  7. 根据权利要求5所述的商品搜索数据处理方法,其中,所述获取所述实体词编码对应的频繁项集,并根据所述频繁项集,确定所述实体词编码对应的关联实体词编码包括:
    获取包含所述实体词编码的所述第一频繁项集和所述第二频繁项集,并定义第一权值和第二权值,其中所述第二权值大于所述第一权值;
    分别计算所述实体词编码与所述各第一频繁项集之间的第一置信度,以及分别计算所述实体词编码与所述各第二频繁项集之间的第二置信度;
    分别计算所述各第一置信度与所述第一权值的乘积,得到第一加权置信度,以及分别计算所述各第二置信度与所述第二权值的乘积,得到第二加权置信度;
    根据所述第一加权置信度以及所述第二加权置信度,确定加权置信度最高的频繁项集中的实体词编码为关联实体词编码。
  8. 一种计算机设备,其中,所述计算机设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
    所述至少一个处理器调用所述存储器中的所述指令,以使得所述计算机设备执行如下所述的商品搜索数据处理方法的步骤:
    获取用户输入的商品搜索语句;
    将所述商品搜索语句输入预置实体词提取模型进行实体词识别,得到所述商品搜索语句中的目标实体词;
    根据所述目标实体词,查找预置实体词编码库,得到所述目标实体词对应的实体词编码;
    获取所述实体词编码对应的频繁项集,并根据所述频繁项集,确定所述实体词编码对应的关联实体词编码;
    根据所述实体词编码及所述关联实体词编码,确定对应的商品属性信息,并根据所述商品属性信息查找预置商品数据库,输出商品搜索结果。
  9. 根据权利要求8所述的计算机设备,其中,所述实体词提取模型包括双向LSTM层、CRF层及SoftMax层,所述计算机设备执行所述将所述商品搜索语句输入预置实体词提取模型进行实体词识别,得到所述商品搜索语句中的目标实体词的步骤时,包括:
    将所述商品搜索语句转化为多个one-hot稀疏向量并映射为稠密向量;
    对所述各稠密向量进行随机失活处理,得到多个新的稠密向量;
    将所述各新的稠密向量输入所述双向LSTM层进行特征提取,得到隐状态特征序列;
    将所述隐状态特征序列输入所述CRF层进行词性标签的转移概率计算,得到标签转移矩阵;
    将所述标签转移矩阵输入所述SoftMax层进行归一化处理,得到所述商品搜索语句中 各字词对应的实体词概率,并将最高实体词概率对应的字词作为目标实体词。
  10. 根据权利要求8所述的计算机设备,其中,所述计算机设备在执行所述获取用户输入的商品搜索语句之前,还包括:
    接收新增商品请求,其中,所述请求包括商品属性信息及商品实体词;
    根据所述商品属性信息及所述商品实体词,对所述商品实体词进行编码,得到实体词编码并存入实体词编码库中,其中,所述实体词编码包括商品属性码及商品实体词ID。
  11. 根据权利要求10所述的计算机处理设备,其中,所述计算机设备在执行所述获取用户输入的商品搜索语句的步骤之前,还包括:
    获取预置时长内各用户意向购买的第一商品列表以及已购买的第二商品列表;
    分别提取所述第一商品列表、所述第二商品列表中各商品对应的实体词,得到多个实体词列表;
    查找所述实体词编码库,得到所述各实体词列表对应的词编码列表;
    计算所述各词编码列表中各词编码之间的支持度,得到所述各实体词对应的频繁项集。
  12. 根据权利要求11所述的计算机设备,其中,所述计算机设备在执行所述计算所述词编码列表中各词编码之间的支持度,得到所述各实体词对应的频繁项集的步骤时,包括:
    将所述第一商品列表对应的词编码列表中的各词编码进行组合,得到多个第一项集,以及将所述第二商品列表对应的词编码列表中的各词编码进行组合,得到多个第二项集;
    分别计算所述各第一项集的第一支持度以及所述各第二项集的第二支持度;
    根据所述各第一支持度,得到多个第一频繁项集,以及根据所述各第二支持度,得到多个第二频繁项集。
  13. 根据权利要求12所述的计算机设备,其中,所述计算机设备在执行所述根据所述各第一支持度,得到多个第一频繁项集,以及根据所述各第二支持度,得到多个第二频繁项集的步骤时,包括:
    以包含一个词编码的所述第一项集为最小第一项集,以及以包含一个词编码的所述第二项集为最小第二项集;
    分别判断所述各最小第一项集的支持度是否小于预置最小支持度,若小于,则剔除所述最小第一项集和所述最小第一项集的超集,若不小于,则将所述最小第一项集和所述最小第一项集的子集作为第一频繁项集;
    分别判断所述各最小第二项集的支持度是否小于所述最小支持度,若小于,则剔除所述最小第二项集和所述最小第二项集的超集,若不小于,则将所述最小第二项集和所述最小第二项集的子集作为第二频繁项集;
    增加一个词编码数量的所述第一项集为所述最小第一项集,以及增加一个所述词编码数量的所述第二项集为所述最小第二项集,并继续重复执行判断所述各最小第一项集的支持度是否小于预置最小支持度步骤,以及重复执行判断所述各最小第二项集的支持度是否小于所述最小支持度步骤;
    当所述最小第一项集、所述最小第二项集的支持度均大于所述最小支持度时,停止增加所述第一项集和所述第二项集。
  14. 一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其中,所述指令被处理器执行时实现如下所述的商品搜索数据处理方法的步骤:
    获取用户输入的商品搜索语句;
    将所述商品搜索语句输入预置实体词提取模型进行实体词识别,得到所述商品搜索语句中的目标实体词;
    根据所述目标实体词,查找预置实体词编码库,得到所述目标实体词对应的实体词编码;
    获取所述实体词编码对应的频繁项集,并根据所述频繁项集,确定所述实体词编码对应的关联实体词编码;
    根据所述实体词编码及所述关联实体词编码,确定对应的商品属性信息,并根据所述商品属性信息查找预置商品数据库,输出商品搜索结果。
  15. 根据权利要求14所述的计算机可读存储介质,其中,所述实体词提取模型包括双向LSTM层、CRF层及SoftMax层,所述计算机程序被处理器执行时实现所述将所述商品搜索语句输入预置实体词提取模型进行实体词识别,得到所述商品搜索语句中的目标实体词的步骤时,包括:
    将所述商品搜索语句转化为多个one-hot稀疏向量并映射为稠密向量;
    对所述各稠密向量进行随机失活处理,得到多个新的稠密向量;
    将所述各新的稠密向量输入所述双向LSTM层进行特征提取,得到隐状态特征序列;
    将所述隐状态特征序列输入所述CRF层进行词性标签的转移概率计算,得到标签转移矩阵;
    将所述标签转移矩阵输入所述SoftMax层进行归一化处理,得到所述商品搜索语句中各字词对应的实体词概率,并将最高实体词概率对应的字词作为目标实体词。
  16. 根据权利要求14所述的计算机可读存储介质,其中,所述计算机程序被处理器执行时在实现所述获取用户输入的商品搜索语句的步骤之前,还包括:
    接收新增商品请求,其中,所述请求包括商品属性信息及商品实体词;
    根据所述商品属性信息及所述商品实体词,对所述商品实体词进行编码,得到实体词编码并存入实体词编码库中,其中,所述实体词编码包括商品属性码及商品实体词ID。
  17. 根据权利要求16所述的计算机可读存储介质,其中,所述计算机程序被处理器执行时在实现所述获取用户输入的商品搜索语句之前,还包括:
    获取预置时长内各用户意向购买的第一商品列表以及已购买的第二商品列表;
    分别提取所述第一商品列表、所述第二商品列表中各商品对应的实体词,得到多个实体词列表;
    查找所述实体词编码库,得到所述各实体词列表对应的词编码列表;
    计算所述各词编码列表中各词编码之间的支持度,得到所述各实体词对应的频繁项集。
  18. 根据权利要求17所述的计算机可读存储介质,其中,所述计算机程序被处理器执行时实现所述计算所述词编码列表中各词编码之间的支持度,得到所述各实体词对应的频繁项集的步骤时,包括:
    将所述第一商品列表对应的词编码列表中的各词编码进行组合,得到多个第一项集,以及将所述第二商品列表对应的词编码列表中的各词编码进行组合,得到多个第二项集;
    分别计算所述各第一项集的第一支持度以及所述各第二项集的第二支持度;
    根据所述各第一支持度,得到多个第一频繁项集,以及根据所述各第二支持度,得到多个第二频繁项集。
  19. 根据权利要求18所述的计算机可读存储介质,其中,所述计算机程序被处理器执行时实现所述根据所述各第一支持度,得到多个第一频繁项集,以及根据所述各第二支持度,得到多个第二频繁项集的步骤时,包括:
    以包含一个词编码的所述第一项集为最小第一项集,以及以包含一个词编码的所述第二项集为最小第二项集;
    分别判断所述各最小第一项集的支持度是否小于预置最小支持度,若小于,则剔除所述最小第一项集和所述最小第一项集的超集,若不小于,则将所述最小第一项集和所述最小第一项集的子集作为第一频繁项集;
    分别判断所述各最小第二项集的支持度是否小于所述最小支持度,若小于,则剔除所 述最小第二项集和所述最小第二项集的超集,若不小于,则将所述最小第二项集和所述最小第二项集的子集作为第二频繁项集;
    增加一个词编码数量的所述第一项集为所述最小第一项集,以及增加一个所述词编码数量的所述第二项集为所述最小第二项集,并继续重复执行判断所述各最小第一项集的支持度是否小于预置最小支持度步骤,以及重复执行判断所述各最小第二项集的支持度是否小于所述最小支持度步骤;
    当所述最小第一项集、所述最小第二项集的支持度均大于所述最小支持度时,停止增加所述第一项集和所述第二项集。
  20. 一种商品搜索数据处理装置,其中,所述商品搜索数据处理装置包括:
    第一获取模块,用于获取用户输入的商品搜索语句;
    识别模块,用于将所述商品搜索语句输入预置实体词提取模型进行实体词识别,得到所述商品搜索语句中的目标实体词;
    第一查找模块,用于根据所述目标实体词,查找预置实体词编码库,得到所述目标实体词对应的实体词编码;
    确定模块,用于获取所述实体词编码对应的频繁项集,并根据所述频繁项集,确定所述实体词编码对应的关联实体词编码;
    输出模块,用于根据所述实体词编码及所述关联实体词编码,确定对应的商品属性信息,并根据所述商品属性信息查找预置商品数据库,输出商品搜索结果。
PCT/CN2021/082785 2021-02-23 2021-03-24 商品搜索数据处理方法、装置、设备及存储介质 WO2022178932A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110198979.8 2021-02-23
CN202110198979.8A CN112818088B (zh) 2021-02-23 2021-02-23 商品搜索数据处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
WO2022178932A1 true WO2022178932A1 (zh) 2022-09-01

Family

ID=75864784

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/082785 WO2022178932A1 (zh) 2021-02-23 2021-03-24 商品搜索数据处理方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN112818088B (zh)
WO (1) WO2022178932A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113592512A (zh) * 2021-07-22 2021-11-02 上海普洛斯普新数字科技有限公司 一种线上商品身份唯一性识别确认系统
CN114398993B (zh) * 2022-01-18 2024-05-14 平安科技(深圳)有限公司 基于标签数据的搜索信息召回方法、系统、装置和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069086A (zh) * 2015-07-31 2015-11-18 焦点科技股份有限公司 一种优化电子商务商品搜索的方法及系统
WO2017041226A1 (zh) * 2015-09-08 2017-03-16 深圳市赛亿科技开发有限公司 一种商品信息推送方法
CN107123032A (zh) * 2017-05-02 2017-09-01 北京邮电大学 一种物品推荐方法及装置
CN109614614A (zh) * 2018-12-03 2019-04-12 焦点科技股份有限公司 一种基于自注意力的bilstm-crf产品名称识别方法
CN111612579A (zh) * 2020-05-15 2020-09-01 舍弗勒技术股份两合公司 商品信息管理系统、方法、装置及计算机可读存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368049B (zh) * 2020-02-26 2024-04-26 京东方科技集团股份有限公司 信息获取方法、装置、电子设备及计算机可读存储介质
CN111814481B (zh) * 2020-08-24 2023-11-14 深圳市欢太科技有限公司 购物意图识别方法、装置、终端设备及存储介质
CN111985241B (zh) * 2020-09-03 2023-08-08 深圳平安智慧医健科技有限公司 医学信息查询方法、装置、电子设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069086A (zh) * 2015-07-31 2015-11-18 焦点科技股份有限公司 一种优化电子商务商品搜索的方法及系统
WO2017041226A1 (zh) * 2015-09-08 2017-03-16 深圳市赛亿科技开发有限公司 一种商品信息推送方法
CN107123032A (zh) * 2017-05-02 2017-09-01 北京邮电大学 一种物品推荐方法及装置
CN109614614A (zh) * 2018-12-03 2019-04-12 焦点科技股份有限公司 一种基于自注意力的bilstm-crf产品名称识别方法
CN111612579A (zh) * 2020-05-15 2020-09-01 舍弗勒技术股份两合公司 商品信息管理系统、方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN112818088B (zh) 2023-09-29
CN112818088A (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
CN109844767B (zh) 基于图像分析和预测的可视化搜索
US10853401B2 (en) Method, apparatus, and computer program product for classification and tagging of textual data
US9183226B2 (en) Image classification
JP5913736B2 (ja) キーワードの推薦
TWI615724B (zh) 基於電子資訊的關鍵字提取的資訊推送、搜尋方法及裝置
TW201337814A (zh) 商品資訊發佈方法和裝置
US20210390609A1 (en) System and method for e-commerce recommendations
CN110073347A (zh) 锚定搜索
WO2022178932A1 (zh) 商品搜索数据处理方法、装置、设备及存储介质
JP2014517364A (ja) サーフショッピングのための関連抽出のシステム及び方法
WO2010081238A1 (en) Method and system for document classification
CN109584006B (zh) 一种基于深度匹配模型的跨平台商品匹配方法
CN105468649B (zh) 一种待展示对象匹配的判断方法及其装置
Kozareva et al. Recognizing salient entities in shopping queries
WO2021007159A1 (en) Identifying entity attribute relations
CN101350027A (zh) 内容检索设备和内容检索方法
US8121970B1 (en) Method for identifying primary product objects
CN112488781A (zh) 搜索推荐方法、装置、电子设备及可读存储介质
CN111260428A (zh) 一种商品推荐方法和装置
CN113570413A (zh) 广告关键词的生成方法、装置、存储介质及电子设备
CN116703506A (zh) 一种基于多特征融合的电商商品推荐方法及系统
CN115641179A (zh) 信息推送方法、装置及电子设备
CN116384400A (zh) 商品实体识别方法、装置、设备和存储介质
CN115827990A (zh) 搜索方法及装置
Cherednichenko et al. Item Matching Model in E-Commerce: How Users Benefit

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21927366

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21927366

Country of ref document: EP

Kind code of ref document: A1