WO2015180622A1 - 一种确定搜索查询词类别属性的方法和装置 - Google Patents

一种确定搜索查询词类别属性的方法和装置 Download PDF

Info

Publication number
WO2015180622A1
WO2015180622A1 PCT/CN2015/079800 CN2015079800W WO2015180622A1 WO 2015180622 A1 WO2015180622 A1 WO 2015180622A1 CN 2015079800 W CN2015079800 W CN 2015079800W WO 2015180622 A1 WO2015180622 A1 WO 2015180622A1
Authority
WO
WIPO (PCT)
Prior art keywords
search query
category
cache
data
word
Prior art date
Application number
PCT/CN2015/079800
Other languages
English (en)
French (fr)
Inventor
刘鎏
苏晓东
常富洋
王安滨
秦吉胜
Original Assignee
北京奇虎科技有限公司
奇智软件(北京)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京奇虎科技有限公司, 奇智软件(北京)有限公司 filed Critical 北京奇虎科技有限公司
Publication of WO2015180622A1 publication Critical patent/WO2015180622A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Definitions

  • the present invention relates to the field of computer network technologies, and in particular, to a method and apparatus for determining a category attribute of a search query.
  • the search engine In a complete search, after receiving the search query words input by the user, the search engine usually processes the pre-processed search query words, understands the search query words, retrieves documents, sorts, and displays. The whole process needs to be completed in milliseconds. .
  • the classification of search query words is very important for understanding the process of query words. It not only reflects the current user's current interest intention, but also provides the basis for this search. It can also be used as a follow-up search engine result sorting model and advertising CTR pre- Estimate the basic characteristics of the model and natural language model.
  • Support Vector Machine is a kind of supervised learning model in the field of machine learning, which was proposed by Vapnik et al. in 1995.
  • the most basic SVM model is the “binary classification” model, which learns to maximize the interval strategy.
  • the hard-interval support vector machine is learned by the "hard interval maximization” function; for approximate linearly separable data, the soft-interval support vector machine is learned by "soft interval maximization”; for complete linearity Inseparable data, by mapping data to higher dimensional space, learning soft-spaced support vector machines in high-dimensional space.
  • the "nuclear method” can be used to implicitly map the inner product of the input space to high-dimensional. After the space, the inner product is equivalent to learning the soft interval support vector machine in the high dimensional space.
  • Liblinear is a linear SVM software package developed by Professor Lin Zhiren of Taiwan University and its research team. It mainly implements linear multivariate classification and linear regression. Considering large-scale machine learning applications, Liblinear does not introduce a "nuclear method", but instead assumes that the data is linear or approximately linearly separable and directly trains the linear classifier. After years of development, liblinear has been widely used in industrial circles for large-scale classification and regression problems. It not only outperforms SVM in training and prediction performance, but also achieves satisfactory results. From the perspective of probability, in the actual text processing projects in the industry, Boolean vector models are usually used. The number of features is often less than hundreds of thousands of hundreds of millions, and the acquired training data only covers a small part of the data in the feature space. Its linear inseparable probability is smaller.
  • the present invention has been made in order to provide a search query word classification method and apparatus that overcomes the above problems or at least partially solves the above problems.
  • a method for determining a search query term category attribute comprises:
  • a category bias probability of the search query word is analyzed, and a category attribute of the search query word is determined.
  • an apparatus for determining a category attribute of a search query term comprising:
  • a feature extraction unit configured to perform feature extraction on the input search query word to obtain a corresponding feature vector
  • a classifier adapted to obtain a class bias probability of the search query word according to the feature vector and send the result to an output unit
  • an output unit configured to analyze a category bias probability of the search query word, determine a category attribute of the search query word, and output the category attribute.
  • a computer program comprising computer readable code, when the computer readable code is run on a server, causing the server to perform a determination of a search query word according to any of the above The method of the category attribute.
  • a computer readable medium storing a computer program as described above.
  • the feature extraction of the input search query word is performed to obtain a corresponding feature vector, and the class weight probability of the search query word is obtained according to the feature vector via a query word classifier, and the class weight probability of the search query word is analyzed.
  • a technical solution for determining a category attribute of the search query word by extracting a feature vector of the search query word, inputting the feature vector into a query word classifier to obtain a category bias probability of the search query word, and analyzing the category bias probability Determine the category attribute of the query word to provide a basis for the search and ensure the accuracy of the search. And can provide basic features for subsequent events such as search sorting.
  • FIG. 1 shows a flow chart of a method of determining a search query term category attribute, in accordance with one embodiment of the present invention
  • FIG. 2 illustrates a flow chart of a method of determining a classification model of a classifier and determining a category attribute of a search query term using a classifier, in accordance with one embodiment of the present invention
  • FIG. 3 is a structural diagram of an apparatus for determining a search query term category attribute according to an embodiment of the present invention
  • FIG. 4 is a structural diagram of an apparatus for determining a search query term category attribute according to still another embodiment of the present invention.
  • Figure 5 schematically shows a block diagram of a server for performing the method according to the invention
  • Fig. 6 schematically shows a storage unit for holding or carrying program code implementing the method according to the invention.
  • FIG. 1 shows a flow chart of a method of determining a search query term category attribute, in accordance with one embodiment of the present invention. As shown in Figure 1, the method includes:
  • Step S110 performing feature extraction on the input search query word to obtain a corresponding feature vector.
  • Step S120 Obtain a category bias probability of the search query word according to the feature vector via a query word classifier.
  • Step S130 analyzing a category bias probability of the search query word, and determining a category attribute of the search query word.
  • the technical solution shown in FIG. 1 extracts the feature vector of the search query word, inputs the feature vector into the query word classifier to obtain the class bias probability of the search query word, and determines the category of the query word by analyzing the class bias probability. Attributes, which provide a basis for search and ensure the accuracy of the search. And can provide basic features for subsequent events such as search sorting. That is, the search results are sorted according to the category attribute of the search query word determined in step S130.
  • the acquisition process of the classification model of the query termifier is improved to overcome the problem that the simple manual annotation data cannot meet the requirements, and the classification model tilt due to the unbalanced data of the training.
  • operations such as pre-processing and cache query are performed before feature extraction of the input search query words to improve efficiency.
  • the method includes steps S220 to S224 of determining a classification model of the classifier, that is, an offline learning learning process; and step S230 to step S238 of determining a category attribute of the search query word by using the classifier, that is, a line The prediction process on.
  • step S220 the annotation data of the label category is obtained.
  • the URL link may also be classified in advance; according to the URL link clicked after the user searches for the specified search query word, the correspondence between the specified search query word and the category of the clicked URL link is established, and the labeled data is obtained.
  • the annotation data may be acquired in combination with the above two methods.
  • a semi-automatic training data labeling method which uses an indirect labeling using a search engine click feedback.
  • the method of training data Specifically, firstly, a large number of manually labeled hosts are collected, and the open data of the ODP can be used or the host is manually labeled.
  • the labeling process establishes the correspondence between the host and the category, and then the user searches for a certain word and clicks on some hosts, according to the first step. From the host to the category, we indirectly created the search term to the category through the host.
  • host refers to the host of the website, and the website's URL link is one-to-one correspondence, so it is actually an annotation of the URL link.
  • Step S222 sampling a certain amount of data from the annotation data of each category to obtain sampling data of the category.
  • the random sampling is: sampling data of more than the first preset value and less than the second preset value from the label data of each category, and obtaining sampling data of the category. That is, a minimum of m data and a maximum of n data are sampled from each category in the original training data with equal probability, which can reduce the extreme imbalance of the data to some extent.
  • Category penalty In the process of training, different penalty factors are set for different categories; among them, a larger penalty factor is set for the category with less data after sampling. That is, for the sampled data, in the training process, by applying different types of penalty factor weights, a larger penalty factor is set for the category with less data after sampling, so that the classification surface is less biased toward less data categories.
  • step S224 the sampling data of each category is trained to obtain a classification model.
  • the feature data extraction and generation of the training process are consistent with the prediction process, including word segmentation, generating feature vectors, and generating libsvm format data.
  • the training of multivariate classification model can be realized by using liblinear, that is, Liblinear is used to train the sampling data of each category to obtain the classification model.
  • the classification model of multivariate classification is a matrix M, M is m*n matrix, m is the number of classifications, n is the number of features, and each element a(i,j) of the matrix represents the jth feature in the ith classification
  • the classification weight which is a floating point type.
  • the classification model size is reduced by two methods:
  • the storage space occupied by the classification model is reduced by reducing the accuracy of the classification weights in the classification model. For example, by truncating the fractional part of the weight to 6 digits, the disk is reduced by half. storage.
  • 11 regularity has the effect of feature selection, and the resulting classification model has a large number of feature weights of 0, which can also reduce disk storage.
  • step S226 the classification model is output to the classifier.
  • Step S230 receiving the input search query word.
  • Step S232 preprocessing the input search query words.
  • the process is actually a process of cleaning words, including one or more of the following: long word filtering, deleting special characters, and deleting stop words.
  • Step S234 querying the cache according to the search query word. If the cache is hit, the category bias probability of the search query word is directly output; if there is no hit cache, step S236 is performed.
  • a preset cache is required, and a certain number of search query words and corresponding category bias probability are saved in a preset cache.
  • the data in the cache is updated at regular intervals.
  • Saving a certain number of search query words and corresponding category biases in a preset cache may be:
  • a preset cache is respectively preset; for each CDN cache, from the search query words that access the determined category bias probability of the CDN, find the first predetermined number of search query words that are the most frequently queried times. And correspondingly storing the predetermined number of search query words and the corresponding category bias probability into the cache of the CDN.
  • Step S236 performing feature extraction on the search query word to obtain a corresponding feature vector.
  • the step specifically includes: segmenting the input search query word, and constructing the feature vector in the libsvm format by using the result of the word segmentation.
  • the input data of the classifier is the feature data of the word
  • this step mainly includes the word segmentation and the construction feature vector by converting the search query word into a feature vector conforming to the input format of the classifier.
  • the vector of the format is the input of the classifier.
  • the libsvm feature vector format uses a sparse representation of the vector space model, and its transformed single query word has a feature space dimension of 600,000 to 1 million dimensions.
  • Step S238, the feature vector is input to the classifier, and the classifier performs prediction based on the classification model, and obtains the category bias probability of the search query word and outputs the result.
  • a polysemy phenomenon in Chinese is very common. This feature is also retained in the classification model, that is, the same query word will have multiple categories of output, and the output criteria will be based on the probability, variance, etc. of the word predicted by the model under different categories. Numerical feature calculation. For example, through model prediction, the probability of “Three Kingdoms Romance” belonging to books, TV dramas, and business and industry is 0.9, 0.8, and 0.2 respectively. Then we can observe that the probability that the word belongs to books and TV dramas is significantly higher than the probability of business and industry, so we think that the word can belong to books and TV series. The above identification method can be implemented by sequentially calculating the sample mean values of the first n probabilities after sorting. This is derived from the direct relationship of the probability of the classifier under different categories.
  • the above technical solution of the present invention can analyze the category to which the user query word belongs in real time, the training data amount is large and has high accuracy, and the final training model classification accuracy is high.
  • the category covers a wide range, can meet the needs of most query word classification business and machine learning model, and belongs to the basic components of the Internet.
  • FIG. 3 illustrates a block diagram of an apparatus for determining attributes of a search query term category, in accordance with one embodiment of the present invention.
  • the apparatus 300 for determining a search query term attribute includes:
  • the feature extraction unit 301 is adapted to perform feature extraction on the input search query word to obtain a corresponding feature vector.
  • the classifier 302 is adapted to obtain a class bias probability of the search query word according to the feature vector and send it to an output unit.
  • the output unit 303 is adapted to analyze a category bias probability of the search query word, determine a category attribute of the search query word, and output the category attribute.
  • the apparatus 400 for determining a search query term attribute includes:
  • the feature extraction unit 401 is adapted to perform feature extraction on the input search query words to obtain corresponding Feature vector.
  • the classifier 402 is adapted to obtain a class bias probability of the search query word according to the feature vector and send it to an output unit.
  • the output unit 403 is adapted to analyze a category bias probability of the search query word, determine a category attribute of the search query word, and output the category attribute.
  • the apparatus 400 for determining a search query term category attribute shown in FIG. 4 further includes:
  • An annotation data obtaining unit 404 is adapted to acquire the annotation data of the annotation category
  • the sampling unit 405 is adapted to sample more than the first preset value from the annotation data of each category, and less than the data of the second preset value, to obtain sampling data of the category;
  • the training unit 406 is adapted to train the sample data of each category to obtain a classification model of the classifier.
  • the training unit 406 is adapted to set different penalty factors for different categories in the process of training; wherein, a penalty factor is set for a category with a small number of samples after sampling. .
  • the classification model obtained by the training unit 406 is a matrix of m*n, m is a number of classifications, n is a number of features, and each element a(i, j) of the matrix a classification weight indicating the jth feature in the i-th classification;
  • the training unit 406 is further adapted to reduce the storage space occupied by the classification model by reducing the accuracy of the classification weights in the classification model; and/or further adapted to use the 11 regularization training model to reduce the classification model Occupied storage space.
  • the annotation data acquisition unit 404 is adapted to obtain the manually labeled annotation data; and/or, is adapted to pre-categorize the URL link, and click after the user searches for the specified search query word.
  • the URL link establishes a correspondence between the specified search query word and the category of the clicked URL link, and obtains the tag data.
  • the training unit 406 is adapted to use Liblinear to train sample data of each category to obtain a classification model
  • the feature extraction unit 401 is adapted to segment the input search query words, and construct the feature vector in the libsvm format by using the result of the word segmentation.
  • the 400 further includes a pre-processing unit 407 adapted to pre-process the input search query words; the pre-processing includes one or more of the following processes: long word filtering, deleting special characters, and deleting the use words.
  • the apparatus 400 for determining a search query term category attribute shown in FIG. 4 further includes:
  • the cache unit 408 is adapted to save a certain number of search query words and corresponding category bias probability
  • the cache query unit 409 is adapted to query the cache unit 408 according to the input search query word; if the cache is hit, directly send the category bias probability of the input search query word to the output unit 403; if there is no hit cache, The input search query word is sent to the feature extraction unit 401.
  • the apparatus 400 for determining a search query term attribute shown in FIG. 4 further includes: a cache data setting unit 410;
  • the cache data setting unit 410 is adapted to find a pre-predetermined number of search query words that are the most frequently queried from the search query words for which the category bias probability is determined, and the predetermined number of search query words and corresponding categories The weighted probability is correspondingly saved in the cache unit;
  • Cache units are respectively set for different content distribution network CDNs
  • the cache data setting unit 410 is adapted to, for each cache unit of the CDN, find a search query word of a predetermined number of times that is the most frequently queried from the search query words that access the determined category bias probability of the CDN.
  • the predetermined number of search query words and the corresponding category bias probability are saved in the buffer unit of the CDN.
  • the apparatus 400 for determining a search query term category attribute shown in FIG. 4 further includes: a sorting unit 411 adapted to sort the search results according to the determined category attribute of the search query word.
  • the present invention performs feature extraction on the input search query word to obtain a corresponding feature vector, and obtains a class bias probability of the search query word according to the feature vector via a query word classifier, and analyzes the search query.
  • a category biasing probability of a word a technical solution for determining a category attribute of the search query word, by extracting a feature vector of the search query word, inputting the feature vector into a query word classifier to obtain a category bias probability of the search query word, and
  • the category attribute of the query word is determined by analyzing the category bias probability, thereby providing a basis for the search and ensuring the accuracy of the search. And can provide basic features for subsequent events such as search sorting.
  • modules in the devices of the embodiments can be adaptively changed and placed in one or more devices different from the embodiment.
  • the modules or units or components of the embodiments may be combined into one module or unit or component, and further they may be divided into a plurality of sub-modules or sub-units or sub-components.
  • any combination of the features disclosed in the specification, including the accompanying claims, the abstract and the drawings, and any methods so disclosed, or All processes or units of the device are combined.
  • Each feature disclosed in this specification (including the accompanying claims, the abstract and the drawings) may be replaced by alternative features that provide the same, equivalent or similar purpose.
  • the various component embodiments of the present invention may be implemented in hardware, or in a software module running on one or more processors, or in a combination thereof.
  • a microprocessor or digital signal processor may be used in practice to implement some or all of some or all of the means for determining a search query term attribute in accordance with an embodiment of the present invention.
  • the invention can also be implemented as a device or device program (e.g., a computer program and a computer program product) for performing some or all of the methods described herein.
  • a program implementing the invention may be stored on a computer readable medium or may be in the form of one or more signals. Such signals may be downloaded from an Internet website, provided on a carrier signal, or provided in any other form.
  • the various component embodiments of the present invention may be implemented in hardware, or in a software module running on one or more processors, or in a combination thereof.
  • a microprocessor or digital signal processor may be used in practice to implement some or all of some or all of the means for determining a search query term attribute in accordance with an embodiment of the present invention.
  • the invention can also be implemented as a device or device program (e.g., a computer program and a computer program product) for performing some or all of the methods described herein.
  • a program implementing the invention may be stored on a computer readable medium or may be in the form of one or more signals. Such signals may be downloaded from an Internet website, provided on a carrier signal, or provided in any other form.
  • FIG. 5 illustrates a server, such as a search server, that can implement a method of determining a search query term category attribute in accordance with the present invention.
  • the server conventionally includes a processor 510 and a computer program product or computer readable medium in the form of a memory 520.
  • the memory 520 may be an electronic memory such as a flash memory, an EEPROM (Electrically Erasable Programmable Read Only Memory), an EPROM, a hard disk, or a ROM.
  • Memory 520 has a memory space 530 for program code 531 for performing any of the method steps described above.
  • storage space 530 for program code may include various program code 531 for implementing various steps in the above methods, respectively.
  • the program code can be read from or written to one or more computer program products.
  • These computer program products include program code carriers such as hard disks, compact disks (CDs), memory cards or floppy disks.
  • Such computer program products are typically portable or fixed storage units as described with reference to FIG.
  • the storage unit can have the same server as in FIG.
  • the memory 520 is similarly arranged in a storage section, a storage space, and the like.
  • the program code can be compressed, for example, in an appropriate form.
  • the storage unit includes computer readable code 531', code that can be read by a processor, such as 510, which, when executed by a server, causes the server to perform various steps in the methods described above.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种确定搜索查询词类别属性的方法和装置。所述方法包括:对输入的搜索查询词进行特征提取得到对应的特征向量(S110),根据所述特征向量经由查询词分类器得到所述搜索查询词的类别偏重概率,分析所述搜索查询词的类别偏重概率(S120),确定所述搜索查询词的类别属性(S130)。通过提取搜索查询词的特征向量,将该特征向量输入到查询词分类器得到所述搜索查询词的类别偏重概率,并通过分析类别偏重概率确定该查询词的类别属性,从而为搜索提供基础依据,保障搜索的准确性。并且能够为搜索排序等后续事件提供基础特征。

Description

一种确定搜索查询词类别属性的方法和装置 技术领域
本发明涉及计算机网络技术领域,具体涉及一种确定搜索查询词类别属性的方法和装置。
背景技术
在一次完整的搜索中,搜索引擎接收到用户输入的搜索查询词后通常会经过预处理搜索查询词、理解搜索查询词、检索文档、排序、展现等过程,整个过程需要在毫秒级时间内完成。而搜索查询词的分类对于理解查询词这一过程是是十分重要的,它不仅能反映当前用户当前的兴趣意图,为本次检索提供依据,又能作为后续搜索引擎结果排序模型、广告CTR预估模型、自然语言模型的基础特征。
支持向量机(SVM)为机器学习领域中监督学习模型的一种,由Vapnik等人于1995年提出。最基本的SVM模型为“二元分类”模型,其学习方式为最大化间隔策略。对于简单的线性可分数据,通过“硬间隔最大化”函数学习出硬间隔支持向量机;对于近似线性可分的数据,通过“软间隔最大化”学习出软间隔支持向量机;对于完全线性不可分的数据,通过将数据映射到更高维空间,在高维空间学习出软间隔支持向量机,在这一过程中采用“核方法”可以隐式地将输入空间的内积映射到高维空间后再做内积,相当于在高维空间学习软间隔支持向量机。
Liblinear是由台湾大学林智仁教授及其研究团队开发的线性SVM软件包,主要实现了线性多元分类与线性回归。Liblinear考虑到大规模机器学习应用,它并没有引入“核方法”,而是假设数据线性或近似线性可分,直接训练线性分类器。经过多年发展,liblinear在工业界被广泛的应用于大规模分类与回归问题的解决,其不仅在训练与预测的性能上远远优于SVM,其准确率也达到令人满意的效果。从概率的角度,业界实际的文本处理项目中,通常采用布尔向量模型,特征数量往往少则几十万多则上亿,而获取到的训练数据仅仅覆盖特征空间中的一小部分数据,因此其线性不可分概率便较小了。
可见现有的搜索查询词分类器的准确率仍有待提高。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种搜索查询词分类方法和装置。
依据本发明的一个方面,提供了一种确定搜索查询词类别属性的方法,其中,该方法包括:
对输入的搜索查询词进行特征提取得到对应的特征向量;
根据所述特征向量经由查询词分类器得到所述搜索查询词的类别偏重概率;
分析所述搜索查询词的类别偏重概率,确定所述搜索查询词的类别属性。
依据本发明的另一个方面,提供了一种确定搜索查询词类别属性的装置,该装置包括:
特征提取单元,适于对输入的搜索查询词进行特征提取得到对应的特征向量;
分类器,适于根据所述特征向量得到所述搜索查询词的类别偏重概率并发送给输出单元;
输出单元,适于分析所述搜索查询词的类别偏重概率,确定所述搜索查询词的类别属性并输出。
依据本发明的一个方面,还提供了一种计算机程序,包括计算机可读代码,当所述计算机可读代码在服务器上运行时,导致所述服务器执行根据上述任一个所述的确定搜索查询词类别属性的方法。
依据本发明的一个方面,还提供了一种计算机可读介质,其中存储了如上所述的计算机程序。
本发明这种对输入的搜索查询词进行特征提取得到对应的特征向量,根据所述特征向量经由查询词分类器得到所述搜索查询词的类别偏重概率,分析所述搜索查询词的类别偏重概率,确定所述搜索查询词的类别属性的技术方案,通过提取搜索查询词的特征向量,将该特征向量输入到查询词分类器得到所述搜索查询词的类别偏重概率,并通过分析类别偏重概率确定该查询词的类别属性,从而为搜索提供基础依据,保障搜索的准确性。并且能够为搜索排序等后续事件提供基础特征。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种确定搜索查询词类别属性的方法的流程图;
图2示出了根据本发明一个实施例的确定分类器的分类模型以及利用分类器确定搜索查询词的类别属性的方法的流程图;
图3示出了根据本发明一个实施例的一种确定搜索查询词类别属性的装置的结构图;
图4示出了根据本发明又一个实施例的一种确定搜索查询词类别属性的装置的结构图;
图5示意性地示出了用于执行根据本发明的方法的服务器的框图;以及
图6示意性地示出了用于保持或者携带实现根据本发明的方法的程序代码的存储单元。
具体实施例
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的一种确定搜索查询词类别属性的方法的流程图。如图1所示,该方法包括:
步骤S110,对输入的搜索查询词进行特征提取得到对应的特征向量。
步骤S120,根据所述特征向量经由查询词分类器得到所述搜索查询词的类别偏重概率。
步骤S130,分析所述搜索查询词的类别偏重概率,确定所述搜索查询词的类别属性。
图1所示的技术方案,通过提取搜索查询词的特征向量,将该特征向量输入到查询词分类器得到所述搜索查询词的类别偏重概率,并通过分析类别偏重概率确定该查询词的类别属性,从而为搜索提供基础依据,保障搜索的准确性。并且能够为搜索排序等后续事件提供基础特征。即根据步骤S130中确定的所述搜索查询词的类别属性对搜索结果进行排序。
在本发明的一个实施例中,对查询词分类器的分类模型的获取过程进行了改进,以克服单纯的人工标注数据不能满足需求,以及由于训练的数据不均衡导致的分类模型倾斜等问题。在本发明的一个实施例中,在对输入的搜索查询词进行特征提取之前还进行预处理以及缓存查询等操作,以提高效率。为说明上述技术方案,下面以图2所示的流程为例进行说明。
图2示出了根据本发明一个实施例的确定分类器的分类模型以及利用分类器确定搜索查询词的类别属性的方法的流程图。如图2所示,该方法包括确定分类器的分类模型的步骤S220~步骤S224,即线下的训练学习过程;以及利用分类器确定搜索查询词的类别属性的步骤S230~步骤S238,即线上的预测过程。
步骤S220,获取标注类别的标注数据。
本步骤中,可以获取人工标注的标注数据。也可以预先对网址链接进行分类标注;根据用户搜索指定搜索查询词后点击的网址链接,建立所述指定搜索查询词与所点击网址链接的分类之间的对应关系,得到标注数据。或者也可以结合上述两种方式获取标注数据。
SVM的学习属于监督学习,其训练过程依赖于大量标注数据。单纯人工标注数据已经不能满足要达到一定准确度的分类器对于大规模标注数据量的需求,因此本实施例中提供了一种半自动化训练数据标注方法,采用一种使用搜索引擎点击反馈间接标注训练数据的方法。具体地,首先收集大量人工标注host,可以采用ODP的开放数据或手动标注host,标注过程即建立host到类别的对应关系,然后用户搜索某词语后点击了某些host,根据第一步建立的host到类别的对应关系,我们便通过host间接地建立了搜索词到类别的 对应关系。这里,host是指网站的主机,和网站的网址链接是一一对应的,因此其实是对网址链接的标注。
步骤S222,从每个类别的标注数据中抽样一定数量的数据,得到该类别的抽样数据。
经由上述的半自动化方法得到的标注数据存在显著的数据不均衡问题。人工标注也可能存在数据不均衡的问题。用于分类模型的训练数据不均衡意味着分类面将会偏向于数据少的类别一侧,使得分类模型倾向于将输入实例类别判定为数据较多的一类,导致分类错误,而这种情况在多元分类中更加复杂。为在多元分类模型中减少甚至避免数据不均衡问题,本实施例中主要采用随机抽样和类别惩罚权值的调节的方法。
随机抽样为:从每个类别的标注数据中抽样多于第一预设值,少于第二预设值数量的数据,得到该类别的抽样数据。即从原有训练数据中每个类别以等概率抽样最少m条数据,最多n条数据,这样可以从一定程度上减少数据的极不均衡问题。
类别惩罚:在训练的过程中,对不同类别设置不同的惩罚因子;其中,对抽样后数据条数较少的类别设置较大的惩罚因子。即针对抽样后的数据,在训练过程中,通过施加不同类别的惩罚因子权重,对抽样后数据条数较少的类别设置较大的惩罚因子,可以避免分类面偏向少数据的类别。
步骤S224,对各类别的抽样数据进行训练得到分类模型。
训练过程的特征数据提取和生成与预测的过程一致,包括分词、生成特征向量、生成libsvm格式数据。
训练。利用liblinear可以实现多元分类模型的训练,即采用Liblinear对各类别的抽样数据进行训练得到分类模型。
在原有liblinear实现中,利用OpenMP将训练过程改写为多分类并行训练,可以大大提高训练效率。多元分类的分类模型为一矩阵M,M为m*n矩阵,m为分类个数,n为特征个数,矩阵的每个元素a(i,j)表示第j个特征在第i个分类的分类权值,该权值为浮点型。
由于特征数少则几十万多则上百万,而实际的分类个数也有约600个,那么所得分类模型矩阵至少包含上亿个元素,原有liblinear训练输出的分类模型占用近4G磁盘空间。因此为提高在离线/在线预测时分类模型加载效率,在本发明的一个实施例中通过两种方法降低分类模型大小:
第一,通过减少分类模型中的分类权值的精度,来降低分类模型所占用的存储空间。例如,通过将权值的小数部分截取到6位,降低了一半的磁盘 存储。
第二,使用11正则化训练模型。11正则具有特征选择的效果,所得分类模型有大量的特征权值为0,同样可以降低磁盘存储。
步骤S226,将分类模型输出到分类器。
通过上述过程得到了分类器的分类模型。下面是一次的在线预测过程。
步骤S230,接收输入的搜索查询词。
步骤S232,对输入的搜索查询词进行预处理。
由于搜索引擎搜索框中的输入词语各式各样,杂乱的信息势必干扰分类效果,因此需要对搜索词进行预处理。该过程实际为清洗词语的过程,包括以下处理中的一种或多种:长词过滤、删除特殊字符和删除停用词。
步骤S234,根据搜索查询词查询缓存,如果命中缓存,则直接输出所述搜索查询词的类别偏重概率;如果没有命中缓存,则执行步骤S236。
这里,需要预设缓存,在预设的缓存中保存一定数量的搜索查询词和对应的类别偏重概率。每隔一段时间对缓存中的数据进行更新。
在预设的缓存中保存一定数量的搜索查询词和对应的类别偏重概率可以为:
从已确定类别偏重概率的搜索查询词中找出被查询次数最多的前预定个数的搜索查询词,将该预定个数的搜索查询词和相应的类别偏重概率对应保存到所述缓存中;
或者,
针对不同的内容分发网络CDN分别预设缓存;对于每个CDN的缓存,从访问该CDN的已确定类别偏重概率的搜索查询词中,找出被查询次数最多的前预定个数的搜索查询词,将该预定个数的搜索查询词和相应的类别偏重概率对应保存到该CDN的缓存中。这种方式考虑了查询词访问的地域性差异,以提高缓存命中率。
步骤S236,对搜索查询词进行特征提取得到对应的特征向量。
本步骤具体包括:对输入的搜索查询词进行分词,利用分词后的结果构造libsvm格式的特征向量。
这是因为分类器的输入数据为词语的特征数据,该步骤通过将搜索查询词转换为符合分类器输入格式的特征向量,主要包括分词和构造特征向量。利用分词后的结构构造libsvm格式的特征向量,该格式的向量为分类器的输 入。libsvm特征向量格式采用稀疏表示的向量空间模型,其经过转换后的单查询词的特征空间维度为60万至100万维。
步骤S238,将所述特征向量输入到分类器,分类器基于分类模型进行预测,得到所述搜索查询词的类别偏重概率后输出。
在本发明的实施例中,搜索查询词经过转换后生成libsvm格式的数据,假设特征向量为列向量X,分类模型矩阵为M,则对该词预测为第i类的概率为p_i=X′*M_i。其预测输出为该词被判别为每个类别下的概率值。除此之外,还可以包括其它一些数值信息,比如被预测为不同类别的概率的方差等。实践证明,这些输出在后期有关置信度的计算和按条件过滤的计算中非常有用。
汉语的一次多义现象很普遍,分类模型中也保留了这一特性,即同一查询词会有多个类别输出,而输出的标准则根据模型预测的该词在不同类别下的概率、方差等数值特征计算。比如通过模型预测,“三国演义”属于书籍、电视剧、工商业的概率分别为0.9、0.8、0.2。那么可以观察到,该词属于书籍、电视剧的概率要显著高于工商业的概率,因此我们认为该词可以属于书籍、电视剧。以上的识别方法可以通过依次计算排序后前n个概率的样本均值实现。这便是通过分类器在不同类别下的概率直接的关系得出。
本发明的上述技术方案可以实时分析用户查询词所属的类别,训练数据量大且有较高的准确度,最终训练的模型分类精度较高。类别涵盖面较广,能满足大部分查询词分类业务和机器学习模型的需求,属于互联网基础组件。
图3示出了根据本发明一个实施例的一种确定搜索查询词类别属性的装置的结构图。如图3所示,该确定搜索查询词类别属性的装置300包括:
特征提取单元301,适于对输入的搜索查询词进行特征提取得到对应的特征向量。
分类器302,适于根据所述特征向量得到所述搜索查询词的类别偏重概率并发送给输出单元。
输出单元303,适于分析所述搜索查询词的类别偏重概率,确定所述搜索查询词的类别属性并输出。
图4示出了根据本发明又一个实施例的一种确定搜索查询词类别属性的装置的结构图。如图4所示,该确定搜索查询词类别属性的装置400包括:
特征提取单元401,适于对输入的搜索查询词进行特征提取得到对应的 特征向量。
分类器402,适于根据所述特征向量得到所述搜索查询词的类别偏重概率并发送给输出单元。
输出单元403,适于分析所述搜索查询词的类别偏重概率,确定所述搜索查询词的类别属性并输出。
在本发明的一个实施例中,图4所示的确定搜索查询词类别属性的装置400还包括:
标注数据获取单元404,适于获取标注类别的标注数据;
抽样单元405,适于从每个类别的标注数据中抽样多于第一预设值,少于第二预设值数量的数据,得到该类别的抽样数据;
训练单元406,适于对各类别的抽样数据进行训练得到所述分类器的分类模型。
在本发明的一个实施例中,所述训练单元406,适于在训练的过程中,对不同类别设置不同的惩罚因子;其中,对抽样后数据条数较少的类别设置较大的惩罚因子。
在本发明的一个实施例中,所述训练单元406得到的所述分类模型为m*n的矩阵,m为分类个数,n为特征个数,矩阵的每个元素a(i,j)表示第j个特征在第i个分类的分类权值;
所述训练单元406,进一步适于通过减少分类模型中的分类权值的精度,来降低分类模型所占用的存储空间;和/或,进一步适于使用11正则化训练模型,以降低分类模型所占用的存储空间。
在本发明的一个实施例中,所述标注数据获取单元404,适于获取人工标注的标注数据;和/或,适于预先对网址链接进行分类标注,根据用户搜索指定搜索查询词后点击的网址链接,建立所述指定搜索查询词与所点击网址链接的分类之间的对应关系,得到标注数据。
在本发明的一个实施例中,所述训练单元406,适于采用Liblinear对各类别的抽样数据进行训练得到分类模型;
所述特征提取单元401,适于对输入的搜索查询词进行分词,利用分词后的结果构造libsvm格式的特征向量。
在本发明的一个实施例中,图4所示的确定搜索查询词类别属性的装置 400还包括:预处理单元407,适于对输入的搜索查询词进行预处理;所述预处理包括以下处理中的一种或多种:长词过滤、删除特殊字符和删除挺用词。
在本发明的一个实施例中,图4所示的确定搜索查询词类别属性的装置400还包括:
缓存单元408,适于保存一定数量的搜索查询词和对应的类别偏重概率;
缓存查询单元409,适于根据输入的搜索查询词查询缓存单元408;如果命中缓存,则直接将所述输入的搜索查询词的类别偏重概率发送给所述输出单元403;如果没有命中缓存,则将所述输入的搜索查询词发送给所述特征提取单元401。
在本发明的一个实施例中,图4所示的确定搜索查询词类别属性的装置400还包括:缓存数据设置单元410;
所述缓存数据设置单元410,适于从已确定类别偏重概率的搜索查询词中找出被查询次数最多的前预定个数的搜索查询词,将该预定个数的搜索查询词和相应的类别偏重概率对应保存到所述缓存单元中;
或者,
针对不同的内容分发网络CDN分别设置缓存单元;
所述缓存数据设置单元410,适于对每个CDN的缓存单元,从访问该CDN的已确定类别偏重概率的搜索查询词中,找出被查询次数最多的前预定个数的搜索查询词,将该预定个数的搜索查询词和相应的类别偏重概率对应保存到该CDN的缓存单元中。
在本发明的一个实施例中,图4所示的确定搜索查询词类别属性的装置400还包括:排序单元411,适于根据确定的所述搜索查询词的类别属性对搜索结果进行排序。
综上所述,本发明这种对输入的搜索查询词进行特征提取得到对应的特征向量,根据所述特征向量经由查询词分类器得到所述搜索查询词的类别偏重概率,分析所述搜索查询词的类别偏重概率,确定所述搜索查询词的类别属性的技术方案,通过提取搜索查询词的特征向量,将该特征向量输入到查询词分类器得到所述搜索查询词的类别偏重概率,并通过分析类别偏重概率确定该查询词的类别属性,从而为搜索提供基础依据,保障搜索的准确性。 并且能够为搜索排序等后续事件提供基础特征。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权 利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的确定搜索查询词类别属性的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的确定搜索查询词类别属性的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图5示出了可以实现根据本发明的确定搜索查询词类别属性的方法的服务器,例如搜索服务器。该服务器传统上包括处理器510和以存储器520形式的计算机程序产品或者计算机可读介质。存储器520可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器520具有用于执行上述方法中的任何方法步骤的程序代码531的存储空间530。例如,用于程序代码的存储空间530可以包括分别用于实现上面的方法中的各种步骤的各个程序代码531。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为如参考图6所述的便携式或者固定存储单元。该存储单元可以具有与图5的服务器中 的存储器520类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常,存储单元包括计算机可读代码531’,即可以由例如诸如510之类的处理器读取的代码,这些代码当由服务器运行时,导致该服务器执行上面所描述的方法中的各个步骤。
本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着,结合实施例描述的特定特征、结构或者特性包括在本发明的至少一个实施例中。此外,请注意,这里“在一个实施例中”的词语例子不一定全指同一个实施例。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
此外,还应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (22)

  1. 一种确定搜索查询词类别属性的方法,其中,该方法包括:
    对输入的搜索查询词进行特征提取得到对应的特征向量;
    根据所述特征向量经由查询词分类器得到所述搜索查询词的类别偏重概率;
    分析所述搜索查询词的类别偏重概率,确定所述搜索查询词的类别属性。
  2. 如权利要求1所述的方法,其中,该方法还包括获得所述查询词分类器的分类模型的如下步骤:
    获取标注类别的标注数据;
    从每个类别的标注数据中抽样多于第一预设值,少于第二预设值数量的数据,得到该类别的抽样数据;
    对各类别的抽样数据进行训练得到分类模型。
  3. 如权利要求1-2任一项所述的方法,其中,所述对各类别的抽样数据进行训练得到分类模型包括:
    在训练的过程中,对不同类别设置不同的惩罚因子;其中,对抽样后数据条数较少的类别设置较大的惩罚因子。
  4. 如权利要求1-3任一项所述的方法,其中,所述分类模型为m*n的矩阵,m为分类个数,n为特征个数,矩阵的每个元素a(i,j)表示第j个特征在第i个分类的分类权值;
    所述对各类别的抽样数据进行训练得到分类模型还包括:
    通过减少分类模型中的分类权值的精度,来降低分类模型所占用的存储空间;和/或,使用11正则化训练模型,以降低分类模型所占用的存储空间。
  5. 如权利要求1-4任一项所述的方法,其中,所述获取标注类别的标注数据包括:
    获取人工标注的标注数据;
    和/或,
    预先对网址链接进行分类标注;根据用户搜索指定搜索查询词后点击的网址链接,建立所述指定搜索查询词与所点击网址链接的分类之间的对应关 系,得到标注数据。
  6. 如权利要求1-5中任一项所述的方法,其中,
    所述对各类别的抽样数据进行训练得到分类模型包括:采用Liblinear对各类别的抽样数据进行训练得到分类模型;
    所述对输入的搜索查询词进行特征提取得到对应的特征向量包括:对输入的搜索查询词进行分词,利用分词后的结果构造libsvm格式的特征向量。
  7. 如权利要求1-6任一项所述的方法,其中,在所述对输入的搜索查询词进行特征提取之前该方法还包括:对输入的搜索查询词进行预处理;
    所述预处理包括以下处理中的一种或多种:长词过滤、删除特殊字符和删除停用词。
  8. 如权利要求1-7任一项所述的方法,其中,该方法还包括:预设缓存,在所述缓存中保存一定数量的搜索查询词和对应的类别偏重概率;
    在所述对输入的搜索查询词进行特征提取之前,该方法还包括:根据输入的搜索查询词查询缓存;如果命中缓存,则直接输出所述输入的搜索查询词的类别偏重概率;如果没有命中缓存,则执行所述对输入的搜索查询词进行特征提取的步骤以及后续步骤。
  9. 如权利要求1-8任一项所述的方法,其中,所述预设缓存,在所述缓存中保存一定数量的搜索查询词和对应的类别偏重概率包括:
    从已确定类别偏重概率的搜索查询词中找出被查询次数最多的前预定个数的搜索查询词,将该预定个数的搜索查询词和相应的类别偏重概率对应保存到所述缓存中;
    或者,
    针对不同的内容分发网络CDN分别预设缓存;对于每个CDN的缓存,从访问该CDN的已确定类别偏重概率的搜索查询词中,找出被查询次数最多的前预定个数的搜索查询词,将该预定个数的搜索查询词和相应的类别偏重概率对应保存到该CDN的缓存中。
  10. 如权利要求1-9任一项所述的方法,其中,该方法进一步包括:
    根据确定的所述搜索查询词的类别属性对搜索结果进行排序。
  11. 一种确定搜索查询词类别属性的装置,其中,该装置包括:
    特征提取单元,适于对输入的搜索查询词进行特征提取得到对应的特征 向量;
    分类器,适于根据所述特征向量得到所述搜索查询词的类别偏重概率并发送给输出单元;
    输出单元,适于分析所述搜索查询词的类别偏重概率,确定所述搜索查询词的类别属性并输出。
  12. 如权利要求11所述的装置,其中,该装置进一步包括:
    标注数据获取单元,适于获取标注类别的标注数据;
    抽样单元,适于从每个类别的标注数据中抽样多于第一预设值,少于第二预设值数量的数据,得到该类别的抽样数据;
    训练单元,适于对各类别的抽样数据进行训练得到所述分类器的分类模型。
  13. 如权利要求11或12所述的装置,其中,
    所述训练单元,适于在训练的过程中,对不同类别设置不同的惩罚因子;其中,对抽样后数据条数较少的类别设置较大的惩罚因子。
  14. 如权利要求11-13任一项所述的装置,其中,
    所述训练单元得到的所述分类模型为m*n的矩阵,m为分类个数,n为特征个数,矩阵的每个元素a(i,j)表示第j个特征在第i个分类的分类权值;
    所述训练单元,进一步适于通过减少分类模型中的分类权值的精度,来降低分类模型所占用的存储空间;和/或,进一步适于使用11正则化训练模型,以降低分类模型所占用的存储空间。
  15. 如权利要求11-14任一项所述的装置,其中,
    所述标注数据获取单元,适于获取人工标注的标注数据;和/或,适于预先对网址链接进行分类标注,根据用户搜索指定搜索查询词后点击的网址链接,建立所述指定搜索查询词与所点击网址链接的分类之间的对应关系,得到标注数据。
  16. 如权利要求11-15任一项所述的装置,其中,
    所述训练单元,适于采用Liblinear对各类别的抽样数据进行训练得到分类模型;
    所述特征提取单元,适于对输入的搜索查询词进行分词,利用分词后的 结果构造libsvm格式的特征向量。
  17. 如权利要求11-16任一项所述的装置,其中,该装置还包括:预处理单元,适于对输入的搜索查询词进行预处理;
    所述预处理包括以下处理中的一种或多种:长词过滤、删除特殊字符和删除挺用词。
  18. 如权利要求11-17任一项所述的装置,其中,该装置还包括:
    缓存单元,适于保存一定数量的搜索查询词和对应的类别偏重概率;
    缓存查询单元,适于根据输入的搜索查询词查询缓存单元;如果命中缓存,则直接将所述输入的搜索查询词的类别偏重概率发送给所述输出单元;如果没有命中缓存,则将所述输入的搜索查询词发送给所述特征提取单元。
  19. 如权利要求11-18任一项所述的装置,其中,该装置还包括:缓存数据设置单元;
    所述缓存数据设置单元,适于从已确定类别偏重概率的搜索查询词中找出被查询次数最多的前预定个数的搜索查询词,将该预定个数的搜索查询词和相应的类别偏重概率对应保存到所述缓存单元中;
    或者,
    针对不同的内容分发网络CDN分别设置缓存单元;
    所述缓存数据设置单元,适于对每个CDN的缓存单元,从访问该CDN的已确定类别偏重概率的搜索查询词中,找出被查询次数最多的前预定个数的搜索查询词,将该预定个数的搜索查询词和相应的类别偏重概率对应保存到该CDN的缓存单元中。
  20. 如权利要求11-19任一项所述的装置,其中,该装置进一步包括:
    排序单元,适于根据确定的所述搜索查询词的类别属性对搜索结果进行排序。
  21. 一种计算机程序,包括计算机可读代码,当所述计算机可读代码在服务器上运行时,导致所述服务器执行根据权利要求1-10中的任一个所述的确定搜索查询词类别属性的方法。
  22. 一种计算机可读介质,其中存储了如权利要求21所述的计算机程序。
PCT/CN2015/079800 2014-05-26 2015-05-26 一种确定搜索查询词类别属性的方法和装置 WO2015180622A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201410225991.3 2014-05-26
CN201410225991.3A CN104050240A (zh) 2014-05-26 2014-05-26 一种确定搜索查询词类别属性的方法和装置

Publications (1)

Publication Number Publication Date
WO2015180622A1 true WO2015180622A1 (zh) 2015-12-03

Family

ID=51503073

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2015/079800 WO2015180622A1 (zh) 2014-05-26 2015-05-26 一种确定搜索查询词类别属性的方法和装置

Country Status (2)

Country Link
CN (1) CN104050240A (zh)
WO (1) WO2015180622A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145245A (zh) * 2018-07-26 2019-01-04 腾讯科技(深圳)有限公司 预测点击率的方法、装置、计算机设备及存储介质
CN111061835A (zh) * 2019-12-17 2020-04-24 医渡云(北京)技术有限公司 查询方法及装置、电子设备和计算机可读存储介质
CN112861956A (zh) * 2021-02-01 2021-05-28 浪潮云信息技术股份公司 基于数据分析的水污染模型构建方法
CN114861057A (zh) * 2022-05-17 2022-08-05 北京百度网讯科技有限公司 资源发送方法、推荐模型的训练及装置

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050240A (zh) * 2014-05-26 2014-09-17 北京奇虎科技有限公司 一种确定搜索查询词类别属性的方法和装置
CN105101124A (zh) * 2015-08-07 2015-11-25 北京奇虎科技有限公司 标注短信类别的方法及装置
CN105095187A (zh) * 2015-08-07 2015-11-25 广州神马移动信息科技有限公司 一种搜索意图识别方法及装置
CN105893533B (zh) * 2016-03-31 2021-05-07 北京奇艺世纪科技有限公司 一种文本匹配方法及装置
CN107291775B (zh) * 2016-04-11 2020-07-31 北京京东尚科信息技术有限公司 错误样本的修复语料生成方法和装置
US10599731B2 (en) * 2016-04-26 2020-03-24 Baidu Usa Llc Method and system of determining categories associated with keywords using a trained model
CN107423304A (zh) * 2016-05-24 2017-12-01 百度在线网络技术(北京)有限公司 检索词分类方法及装置
CN108241650B (zh) * 2016-12-23 2020-08-11 北京国双科技有限公司 训练分类标准的训练方法和装置
CN107621892B (zh) * 2017-10-18 2021-03-09 北京百度网讯科技有限公司 用于获取信息的方法及装置
US10831797B2 (en) 2018-03-23 2020-11-10 International Business Machines Corporation Query recognition resiliency determination in virtual agent systems
CN108763200A (zh) * 2018-05-15 2018-11-06 达而观信息科技(上海)有限公司 中文分词方法及装置
CN110674372B (zh) * 2019-09-29 2022-07-26 北京百度网讯科技有限公司 分类方法及装置
CN113343101B (zh) * 2021-06-28 2023-08-04 支付宝(杭州)信息技术有限公司 一种对象排序方法及系统
CN114048851A (zh) * 2021-10-29 2022-02-15 广东坚美铝型材厂(集团)有限公司 基于不均衡间隔的语义特征自学习方法、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106262A (zh) * 2013-01-28 2013-05-15 新浪网技术(中国)有限公司 文档分类、支持向量机模型生成的方法和装置
CN103123636A (zh) * 2011-11-21 2013-05-29 北京百度网讯科技有限公司 建立词条分类模型的方法、词条自动分类的方法和装置
CN103810264A (zh) * 2014-01-27 2014-05-21 西安理工大学 基于特征选择的网页文本分类方法
CN104050240A (zh) * 2014-05-26 2014-09-17 北京奇虎科技有限公司 一种确定搜索查询词类别属性的方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164454B (zh) * 2011-12-15 2016-03-23 百度在线网络技术(北京)有限公司 关键词分组方法及系统
CN103425677B (zh) * 2012-05-18 2016-08-24 阿里巴巴集团控股有限公司 关键词分类模型确定方法、关键词分类方法及装置
CN103020164B (zh) * 2012-11-26 2015-06-10 华北电力大学 一种基于多语义分析和个性化排序的语义检索方法
CN103123653A (zh) * 2013-03-15 2013-05-29 山东浪潮齐鲁软件产业股份有限公司 基于贝叶斯分类学习的搜索引擎检索排序方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103123636A (zh) * 2011-11-21 2013-05-29 北京百度网讯科技有限公司 建立词条分类模型的方法、词条自动分类的方法和装置
CN103106262A (zh) * 2013-01-28 2013-05-15 新浪网技术(中国)有限公司 文档分类、支持向量机模型生成的方法和装置
CN103810264A (zh) * 2014-01-27 2014-05-21 西安理工大学 基于特征选择的网页文本分类方法
CN104050240A (zh) * 2014-05-26 2014-09-17 北京奇虎科技有限公司 一种确定搜索查询词类别属性的方法和装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145245A (zh) * 2018-07-26 2019-01-04 腾讯科技(深圳)有限公司 预测点击率的方法、装置、计算机设备及存储介质
CN111061835A (zh) * 2019-12-17 2020-04-24 医渡云(北京)技术有限公司 查询方法及装置、电子设备和计算机可读存储介质
CN111061835B (zh) * 2019-12-17 2023-09-22 医渡云(北京)技术有限公司 查询方法及装置、电子设备和计算机可读存储介质
CN112861956A (zh) * 2021-02-01 2021-05-28 浪潮云信息技术股份公司 基于数据分析的水污染模型构建方法
CN114861057A (zh) * 2022-05-17 2022-08-05 北京百度网讯科技有限公司 资源发送方法、推荐模型的训练及装置
CN114861057B (zh) * 2022-05-17 2023-05-30 北京百度网讯科技有限公司 资源发送方法、推荐模型的训练及装置

Also Published As

Publication number Publication date
CN104050240A (zh) 2014-09-17

Similar Documents

Publication Publication Date Title
WO2015180622A1 (zh) 一种确定搜索查询词类别属性的方法和装置
CN110209823B (zh) 一种多标签文本分类方法及系统
CN109165294B (zh) 一种基于贝叶斯分类的短文本分类方法
US9483544B2 (en) Systems and methods for calculating category proportions
EP3166020A1 (en) Method and apparatus for image classification based on dictionary learning
CN109948735B (zh) 一种多标签分类方法、系统、装置及存储介质
CN108241867B (zh) 一种分类方法及装置
CN111950279B (zh) 实体关系的处理方法、装置、设备及计算机可读存储介质
US11663280B2 (en) Search engine using joint learning for multi-label classification
WO2021057133A1 (zh) 一种文档分类模型训练的方法和相关装置
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN112417150A (zh) 行业分类模型训练、使用方法、装置、设备及介质
CN112181490B (zh) 功能点评估法中功能类别的识别方法、装置、设备及介质
CN111143567A (zh) 一种基于改进神经网络的评论情感分析方法
CN111914159A (zh) 一种信息推荐方法及终端
WO2019214142A1 (zh) 电子装置、基于研报数据的预测方法、程序和计算机存储介质
CN110909768B (zh) 一种标注数据获取方法及装置
CN111078881B (zh) 细粒度情感分析方法、系统、电子设备和存储介质
AU2015204339B2 (en) Information processing apparatus and information processing program
CN110069558A (zh) 基于深度学习的数据分析方法及终端设备
CN113408301A (zh) 一种样本处理方法、装置、设备和介质
CN112487263A (zh) 一种信息处理方法、系统、设备及计算机可读存储介质
CN111753151A (zh) 一种基于互联网用户行为的服务推荐方法
Li et al. Semi-supervised gender classification with joint textual and social modeling
US20210133596A1 (en) Ranking image sources for transfer learning

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15800136

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15800136

Country of ref document: EP

Kind code of ref document: A1