WO2014000517A1 - 一种用于搜索输入的推荐系统及方法 - Google Patents

一种用于搜索输入的推荐系统及方法 Download PDF

Info

Publication number
WO2014000517A1
WO2014000517A1 PCT/CN2013/075639 CN2013075639W WO2014000517A1 WO 2014000517 A1 WO2014000517 A1 WO 2014000517A1 CN 2013075639 W CN2013075639 W CN 2013075639W WO 2014000517 A1 WO2014000517 A1 WO 2014000517A1
Authority
WO
WIPO (PCT)
Prior art keywords
chinese
recommended
word
input
recommendation
Prior art date
Application number
PCT/CN2013/075639
Other languages
English (en)
French (fr)
Inventor
胡毅
Original Assignee
北京奇虎科技有限公司
奇智软件(北京)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京奇虎科技有限公司, 奇智软件(北京)有限公司 filed Critical 北京奇虎科技有限公司
Priority to US14/411,091 priority Critical patent/US9971834B2/en
Publication of WO2014000517A1 publication Critical patent/WO2014000517A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English

Definitions

  • the present invention relates to the field of search engine technologies, and in particular, to a recommendation system and method for search input. Background technique
  • Suggest is a technique for providing suggested hints based on the query words that the user has entered.
  • the searcher's responsibility is to help the user get the information to be searched more quickly and with less speed and less.
  • Pinyin annotation is the translation of Chinese phrases into their corresponding pinyin.
  • the difficulty of this process lies in the processing of polyphonic words, which are generally used only when there are too few recommendation words directly indexed by Chinese keywords.
  • the index query for suggest is usually based on a hashmap (the hash-based Map interface), and the query process must be very hard, because the user will call the suggest service multiple times during the process of entering a keyword.
  • the search noise may also be introduced due to improper handling of the polyphonic words.
  • the user inputs “yueshi” in the Baidu search box, and wants to query the eclipse related information, but at this time, suggest The recommended words given include “LeTV” and “Key, etc.” Interest, and "eclipse” is almost overwhelmed by these irrelevant information.
  • the present invention has been made in order to provide a recommendation system and method for search input that overcomes the above problems or at least partially solves or alleviates the above problems.
  • a recommendation system for search input comprising: a keyword acquisition unit, a search tree storage unit, a recommendation word dictionary, an address acquisition unit, and a recommendation unit;
  • An obtaining unit configured to obtain a search keyword according to a user input;
  • the search tree storage unit is adapted to store a Chinese character in a tree data structure, each data node in the tree stores a Chinese character, and an address of the recommended word including the Chinese character Information;
  • the recommended word vocabulary is adapted to store the recommended word;
  • the address obtaining unit is adapted to query the search tree storage unit according to the search keyword to obtain address information of the recommended word;
  • the recommendation unit is adapted to query the recommended word vocabulary according to the address information to obtain the recommendation word, and recommend the recommendation word to the user.
  • a recommendation method for search input comprising the steps of: A: obtaining a search keyword according to a user input; B: querying a search tree storage unit according to the search keyword, obtaining a recommendation word Address information; the search tree storage unit is adapted to store Chinese characters in a tree data structure, each data node in the tree stores a Chinese character, and address information of the recommended word including the Chinese character; C: according to the recommended word
  • the address information query recommendation word vocabulary obtains the recommendation word, and recommends the recommendation word to the user; the recommended word vocabulary is adapted to store the recommendation word.
  • a computer program comprising computer readable code causing the server to perform any of claims 9-20 when run on a server The recommended method for searching for input.
  • a computer readable medium storing the computer program according to claim 21 is provided.
  • each data node records the address information of all the recommended words including the node character, thereby improving the query speed of the recommended words, and overcoming the increase in the recommended vocabulary capacity.
  • FIG. 1 is a block diagram showing the structure of a recommendation system for search input according to Embodiment 1 of the present invention
  • FIG. 2 is a schematic block diagram showing a structure of a recommendation system for search input according to Embodiment 2 of the present invention
  • FIG. 3 is a process flow diagram of a recommendation method for search input according to Embodiment 3 of the present invention
  • FIG. 4 is a schematic structural diagram of a search tree storage unit and a recommended word vocabulary according to Embodiment 3 of the present invention
  • FIG. 5 is a flowchart of step B3 according to Embodiment 3 of the present invention.
  • FIG. 6 is a schematic structural diagram of a multi-phone vocabulary according to Embodiment 3 of the present invention.
  • Figure ⁇ is a process flow diagram of a recommended method for search input according to a fourth embodiment of the present invention
  • Figure 8 is a block diagram schematically showing a server for executing a method according to the present invention
  • Fig. 9 schematically shows a memory unit for holding or carrying a program code implementing a method according to the invention.
  • FIG. 1 is a block diagram of a module structure for a search input system according to the first embodiment of the present invention.
  • the system includes: a keyword obtaining unit 100, an address obtaining unit 200, and a search tree storage unit 300.
  • the word dictionary 400 and the recommendation unit 500 are recommended.
  • the keyword obtaining unit 100 is adapted to obtain a search keyword according to a user input.
  • the user input is a pinyin input or a Chinese input.
  • the keyword obtaining unit 100 is adapted to query the recommended word vocabulary 400 according to the pinyin input, obtain a guiding Chinese corresponding to the pinyin input, and guide the Chinese As a search keyword.
  • the recommended word vocabulary 400 is adapted to store the recommended words, and the pinyin of the recommended words.
  • the recommended word vocabulary 400 corresponds to a Chinese phrase containing a polyphonic word in a combination of pinyin.
  • the guided Chinese is a Chinese obtained by directly translating the pinyin input through the recommended word vocabulary 400.
  • the address obtaining unit 200 is adapted to query the search tree storage unit 300 according to the guiding Chinese, and obtain the address information of the guiding recommendation word whose prefix is Chinese.
  • the lookup tree storage unit 300 employs a Double Array Trie (ie, a double array trie, hereinafter abbreviated as datrie) tree structure. Each data node (node other than the root node) in the datrie tree records a Chinese character, and address information of the recommended word containing the Chinese character.
  • the datrie tree corresponds to the recommended word vocabulary 400 by the address information.
  • the recommendation unit 500 is adapted to query the recommended word dictionary 400 according to the address information of the guidance recommendation word to obtain the guidance recommendation word, and then recommend the recommendation word to the user.
  • the keyword acquisition unit 100 directly inputs the Chinese language as a search keyword.
  • the address obtaining unit 200 is adapted to query the search tree storage unit 300 according to the Chinese input to obtain address information of the primary recommendation word whose Chinese input is prefixed.
  • the recommendation unit 500 is adapted to query the recommended word dictionary 400 according to the address information of the primary recommendation word to directly obtain a corresponding primary recommendation word, and recommend the primary recommendation word to the user.
  • Figure 2 is a block diagram showing the structure of a recommendation system for search input according to the second embodiment of the present invention.
  • the system in this embodiment is basically the same as the system in the first embodiment, except that the system in this embodiment further includes: an annotation unit 600 and a polysyllabic dictionary 700.
  • the labeling unit 600 is configured to query the multi-syllable vocabulary 700 to obtain a pinyin label corresponding to the Chinese input when the number of primary recommendation words is less than a preset threshold.
  • the polyphonic vocabulary 700 is adapted to store Chinese and the corresponding Chinese phonetic annotations, and wherein the Chinese phrases containing the polyphonic words are corresponding in a combination of pinyin.
  • the keyword obtaining unit 100 is further adapted to query the recommended word vocabulary 400 again according to the pinyin label, and obtain an extended Chinese corresponding to the pinyin label.
  • the extended Chinese is a Chinese obtained by directly translating the pinyin annotations by the recommended word vocabulary 400.
  • the address obtaining unit 200 is further configured to query the search tree storage unit 300 according to the extended Chinese language to obtain address information of the extended recommendation word whose prefix is extended by Chinese.
  • the recommendation unit 500 is further adapted to query the recommended term database 400 according to the address information of the extended recommendation word to obtain an extended recommendation word, and then recommend the recommendation word to the user.
  • FIG. 3 is a flowchart of a process for recommending a search input according to Embodiment 3 of the present invention. As shown in FIG. 3, the method includes the following steps:
  • A1 Receive the user's Chinese input, and directly use the Chinese input as the search keyword.
  • the user input is a Chinese input or a pinyin input.
  • the user input may also include English, and other special characters. The processing of these user inputs is not the focus of the present invention and will not be described herein.
  • the lookup tree storage unit may adopt a structure such as a hashmap, a trie tree, a datrie tree, or the like.
  • 4 is a schematic structural diagram of a search tree storage unit and a recommended word vocabulary according to Embodiment 3 of the present invention. As shown in FIG. 4, in the embodiment, the search tree storage unit preferably adopts a datrie tree structure, and the datrie tree is used. Each of the data nodes (nodes other than the root node) records a Chinese character and address information of the recommended word containing the Chinese character.
  • the datrie tree corresponds to the recommended word vocabulary by the address information. Taking the "long” byte point in Figure 4 as an example, it records the address information of all the recommended words containing the word "long". These recommended words include: “long”, “grown up”, “grown up” , “Yangtze River”, “Changjiang Estuary”, “Great Wall”, “Long Song”, “Long Song”.
  • “long” byte point when the last character of the search keyword is "long”, by querying the search tree storage unit, after finding the "long” byte point, there is no need to traverse the "long” word as the root node. Subtree, and you can directly get all the above recommended words containing the word "long”. In this way, when the search tree storage unit is established offline, it may take some time; then, when querying online, the query speed will be greatly improved, and the query speed of millions of times per second can be provided, and the performance does not increase with the data size. decline.
  • step B2 determining, according to the address information of the primary recommendation word, whether the number of the corresponding primary recommendation words is greater than or equal to a preset threshold, and if yes, performing step C; otherwise, searching for the recommended word vocabulary according to the address information of the primary recommendation word
  • the primary recommendation word performs step B3.
  • the preset threshold may be set according to actual usage, for example, set to 3, 4 or 5. In this embodiment, the preset threshold is set to 3, that is, when the number of the primary recommendation words is less than 3, it is considered that the recommended words are too small and need to be expanded.
  • step B3 The primary recommendation word is expanded to obtain address information of the extended recommendation word.
  • Figure 5 is As shown in FIG. 5, the step B3 includes the following steps:
  • FIG. 6 is a schematic structural diagram of a multi-syllable vocabulary according to Embodiment 3 of the present invention.
  • the multi-syllable vocabulary is suitable for storing Chinese and the Chinese corresponding Pinyin annotations, wherein the Pinyin combination is used.
  • the method corresponds to a Chinese phrase containing a polyphonic word; for a single Chinese character, a default common pinyin is given in the polysyllabic vocabulary, such as "Yes, the default pinyin given by the word is "le".
  • B302 Query the recommended word vocabulary according to the pinyin annotation, and obtain an extended Chinese corresponding to the pinyin annotation.
  • a Chinese phrase containing a multi-phonetic word is correspondingly combined in a pinyin combination, for example, the pinyin of "Yangtze River” is “chang
  • a default common pinyin will be given in the recommended vocabulary. For example, the default pinyin given by "long” is "chang”.
  • the Chinese keyword input by the user is "singing", and the obtained primary recommendation word is too small.
  • the pinyin obtained by the step B103 is labeled as "chang
  • the library, the resulting extended Chinese will include: “singing, and "long song”; and will not include "long” (zhang
  • the Chinese keywords that are derived from the extended Chinese and the original input The pronunciation in the current use environment must be the same (regardless of the pitch), not just the existence of the same pronunciation of a single word, thereby further avoiding the problem of introducing noise due to the polyphonic words in the recommended lexicon.
  • step B303 Query the search tree storage unit according to the extended Chinese query, in the extended Chinese
  • the address information of the extended recommendation word prefixed by the extended Chinese is obtained at the node corresponding to the last character.
  • step B302 the extended Chinese "long song” is obtained, and then the new recommendation words "long song” and “long song line” can be expanded, so that the number of recommended words is increased in the case of avoiding multi-tone noise, and the user is allowed to select correspondingly. Recommended word.
  • C1 Query the recommended word vocabulary according to the address information of the primary recommendation word or the extended recommendation word to obtain a corresponding recommendation word, and recommend the corresponding recommendation word to the user.
  • FIG. 7 is a process flow diagram of a recommendation method for search input according to Embodiment 4 of the present invention.
  • the method described in this embodiment is basically the same as the method described in the third embodiment, except that the user input is a pinyin input. As shown in FIG. 7, the method includes the steps of:
  • the address information of the boot recommendation word whose prefix is the Chinese is obtained at the node corresponding to the last character of the boot Chinese.
  • C1 ' querying the recommended word vocabulary according to the address information of the guiding recommendation word to obtain a guiding recommendation word, and recommending the guiding recommendation word to the user.
  • the user input may also include both pinyin and Chinese.
  • the entire user input may be first divided to obtain a pinyin input portion and a Chinese input portion, and then separately processed based on the above method. Since it is not the focus of the present invention, it will not be described here.
  • the recommendation system and method for search input in the search tree storage unit, let each data node record the address information of all the recommended words including the node character, thereby improving the query speed of the recommendation word.
  • the pinyin combination corresponds to the Chinese phrase in the recommended word lexicon and the multi-syllable lexicon, thereby overcoming the search noise caused by the multi-tone word.
  • the problem is to improve the accuracy of the recommendation.
  • the various component embodiments of the present invention may be implemented in hardware, or in a software module running on one or more processors, or in a combination thereof.
  • a microprocessor or digital signal processor may be used in practice to implement some or all of the functionality of some or all of the components of the recommendation system for search input in accordance with embodiments of the present invention.
  • the invention may also be embodied as a device or device program (eg, computer program and computing) for performing some or all of the methods described herein Machine program product).
  • Such a program implementing the invention may be stored on a computer readable medium or may be in the form of one or more signals. Such signals may be downloaded from an Internet website, provided on a carrier signal, or provided in any other form.
  • Figure 8 illustrates a server, such as an application server, that can implement a recommended method for search input in accordance with the present invention.
  • the server conventionally includes a processor 810 and a computer program product or computer readable medium in the form of a memory 820.
  • Memory 820 can be an electronic memory such as flash memory, EEPROM (Electrically Erasable Programmable Read Only Memory), EPROM, hard disk or ROM.
  • Memory 820 has a memory space 830 for program code 831 for performing any of the method steps described above.
  • storage space 830 for program code may include various program code 831 for implementing various steps in the above methods, respectively.
  • the program code can be read from or written to one or more computer program products.
  • Such computer program products include program code carriers such as hard disks, compact disks (CDs), memory cards or floppy disks.
  • Such a computer program product is typically a portable or fixed storage unit as described with reference to Figure 9.
  • the storage unit may have a storage section, a storage space, and the like arranged similarly to the storage 820 in the server of Fig. 8.
  • the program code can be compressed, for example, in an appropriate form.
  • the storage unit includes computer readable code 83 ⁇ , i.e., code readable by a processor, such as 810, that when executed by the server causes the server to perform various steps in the methods described above.
  • an embodiment or “one or more embodiments” as used herein means that the particular features, structures, or characteristics described in connection with the embodiments are included in at least one embodiment of the invention.
  • the phrase “in one embodiment” herein does not necessarily refer to the same embodiment.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于搜索输入的推荐系统及方法,涉及搜索引擎领域。所述系统包括:关键词获取单元,适于根据用户输入获得搜索关键词;查找树存储单元,适于以树形数据结构存储汉字,树中每个数据节点存储一个汉字,以及包含所述汉字的推荐词的地址信息;推荐词词库,适于存储所述推荐词;地址获取单元,适于根据搜索关键词查询查找树存储单元,获得推荐词的地址信息;推荐单元,适于根据地址信息查询推荐词词库获得推荐词,并将推荐词推荐给用户。所述系统及方法,在查找树存储单元中,令每个数据节点记录包含该节点字符的所有推荐词的地址信息,从而提高了推荐词的查询速度,克服了推荐词库容量增大导致查询速度降低的问题。

Description

一种用于搜索输入的推荐系统及方法
技术领域
本发明涉及搜索引擎技术领域, 特别涉及一种用于搜索输入的推荐 系统及方法。 背景技术
Suggest (搜索建议 )是一种根据用户已输入的查询词, 提供建议提示的 技术。 在互联网中, 搜索人的责任就是帮助用户, 以更快的速度, 更少的操 作, 更准确地获取待搜索信息。
用户在搜索框中进行输入时, 往往要输入很多关键词, 还可能会切换输 入法。 而且用户在输好关键词后, 还可能面临输入错误的情况, 比如同音别 字。 最后, 用户也可能并不确定输入什么样的关键词, 能够非常恰当地代表 自己的想法。 suggest就是为了提升用户在输入框中输入关键词时的体验,其 可以缩短用户的键入, 对用户的输入进行纠错, 更重要的是可以推荐出很多 贴近用户想法的关键词。
实现 suggest, —般需要中文到拼音的标注过程和索引查询过程两个环 节。 拼音标注, 就是把中文短语翻译成其相应的拼音, 这个过程的难点在于 多音字的处理, 其一般只在直接根据中文关键词进行索引查询所得推荐词过 少的情况下使用。 suggest的索引查询通常基于 hashmap (基于哈希表的 Map 接口), 查询过程必须性能过硬, 因为用户在输入一个关键词的过程中会多 次调用 suggest服务。
拼音标注环节中, 对于多音字的处理, 通常的做法, 是将多音字的读音 进行枚举, 比如"音乐", 将其翻译成" yinyue"和" yinle", 将"乐视网"翻译成 "yueshiwang,,和 "leshiwang,,。 这种翻译单纯基于单个汉字的读音, 而不考虑 其使用环境。 因此, 可能会造成冗余的拼音索引, 扰乱正确结果, 并且不利 于引导用户认识到自己的拼音错误。
在由拼音得到中文查询串的过程中, 由于对多音字的处理不当, 也可能 会引入搜索噪音, 比如用户在百度搜索框中输入" yueshi", 本想查询月食相 关信息,但此时 suggest给出的推荐词包括"乐视网 "和"钥匙,,等明显无关的信 息, 而"月食"几乎被这些无关信息所淹没。
通常的查询方式, 词典里的数据集越大, 需要遍历的子树越大, 导致查 找消耗的时间随数据集的增大而增加, 影响用户的使用体验。 发明内容
鉴于上述问题, 提出了本发明以便提供一种克服上述问题或者至少 部分地解决或者减緩上述问题的用于搜索输入的推荐系统及方法。
根据本发明的一个方面, 提供了一种用于搜索输入的推荐系统, 所述 系统包括: 关键词获取单元、 查找树存储单元、 推荐词词库、 地址获取单元 和推荐单元; 所述关键词获取单元, 适于根据用户输入获得搜索关键词; 所 述查找树存储单元, 适于以树形数据结构存储汉字, 树中每个数据节点存储 一个汉字, 以及包含所述汉字的推荐词的地址信息; 所述推荐词词库, 适于 存储所述推荐词; 所述地址获取单元, 适于根据所述搜索关键词查询所述查 找树存储单元, 获得所述推荐词的地址信息; 所述推荐单元, 适于根据所述 地址信息查询所述推荐词词库获得所述推荐词, 并将所述推荐词推荐给用 户。
根据本发明的另一个方面, 提供了一种用于搜索输入的推荐方法, 包 括步骤: A: 根据用户输入获得搜索关键词; B: 根据所述搜索关键词查询 查找树存储单元, 获得推荐词的地址信息; 所述查找树存储单元, 适于以树 形数据结构存储汉字, 树中每个数据节点存储一个汉字, 以及包含所述汉字 的推荐词的地址信息; C: 根据所述推荐词的地址信息查询推荐词词库获得 推荐词, 并将所述推荐词推荐给用户; 所述推荐词词库, 适于存储所述推荐 词。
根据本发明的又一个方面, 提供了一种计算机程序, 其包括计算机 可读代码, 当所述计算机可读代码在服务器上运行时, 导致所述服务器 执行根据权利要求 9-20中的任一个所述的用于搜索输入的推荐方法。
根据本发明的再一个方面, 提供了一种计算机可读介质, 其中存储 了如权利要求 21所述的计算机程序。
本发明的有益效果为:
依据本发明的实施例, 在查找树存储单元中, 令每个数据节点记录包含 该节点字符的所有推荐词的地址信息, 从而提高了推荐词的查询速度, 克服 了推荐词库容量增大导致查询速度降低的问题; 同时, 在推荐词词库和多音 词词库中以拼音组合与中文短语相对应,从而克服了由于多音字而导致的搜 索噪音问题, 提高了推荐准确率。
上述说明仅是本发明技术方案的概述, 为了能够更清楚了解本发明 的技术手段, 而可依照说明书的内容予以实施, 并且为了让本发明的上 述和其它目的、 特征和优点能够更明显易懂, 以下特举本发明的具体实 施方式。 附图说明
通过阅读下文优选实施方式的详细描述, 各种其他的优点和益处对 于本领域普通技术人员将变得清楚明了。 附图仅用于示出优选实施方式 的目的, 而并不认为是对本发明的限制。 而且在整个附图中, 用相同的 参考符号表示相同的部件。 在附图中:
图 1是本发明实施例一所述用于搜索输入的推荐系统的模块结构示意 图;
图 2是本发明实施例二所述用于搜索输入的推荐系统的模块结构示意 图;
图 3是本发明实施例三所述用于搜索输入的推荐方法的处理流程图; 图 4是本发明实施例三所述查找树存储单元和推荐词词库的结构示意 图;
图 5是本发明实施例三所述步骤 B3的流程图;
图 6是本发明实施例三所述多音词词库的结构示意图;
图 Ί是本发明实施例四所述用于搜索输入的推荐方法的处理流程图; 图 8示意性地示出了用于执行根据本发明的方法的服务器的框图; 以及
图 9示意性地示出了用于保持或者携带实现根据本发明的方法的程 序代码的存储单元。 具体实施例
下面结合附图和具体的实施方式对本发明作进一步的描述。
图 1是本发明实施例一所述用于搜索输入的推荐系统的模块结构示意 图, 如图 1所示, 所述系统包括: 关键词获取单元 100、 地址获取单元 200、 查找树存储单元 300、 推荐词词库 400和推荐单元 500。 关键词获取单元 100, 适于根据用户输入获得搜索关键词。 所述用户输 入为拼音输入或者中文输入。
当所述用户输入为拼音输入时, 所述关键词获取单元 100, 适于根据所 述拼音输入查询所述推荐词词库 400 , 得到所述拼音输入对应的引导中文, 并将所述引导中文作为搜索关键词。 其中, 所述推荐词词库 400适于存储推 荐词, 以及所述推荐词的拼音。 并且, 所述推荐词词库 400中以拼音组合的 方式对应包含多音字的中文短语。 所述引导中文是通过所述推荐词词库 400 对所述拼音输入直接翻译后得到的中文。
所述地址获取单元 200, 适于根据所述引导中文查询所述查找树存储单 元 300, 得到所述引导中文为前缀的引导推荐词的地址信息。 所述查找树存 储单元 300采用 Double Array Trie (即双数组 trie, 以下简写为 datrie )树结 构。 所述 datrie树中的每个数据节点(除根节点之外的节点)记录一个汉字, 以及包含所述汉字的推荐词的地址信息。 所述 datrie树通过所述地址信息与 所述推荐词词库 400相对应。
所述推荐单元 500, 适于根据所述引导推荐词的地址信息查询推荐词词 库 400获得引导推荐词 , 然后推荐给用户。
当所述用户输入为中文输入时, 所述关键词获取单元 100直接将所述中 文输入作为搜索关键词。
所述地址获取单元 200, 适于根据所述中文输入查询所述查找树存储单 元 300, 得到所述中文输入为前缀的初级推荐词的地址信息。
所述推荐单元 500, 适于根据所述初级推荐词的地址信息查询所述推荐 词词库 400直接获得相应的初级推荐词, 并将所述初级推荐词推荐给用户。
图 2是本发明实施例二所述用于搜索输入的推荐系统的模块结构示意 图。 如图 2所示, 本实施例所述系统与实施例一所述系统基本相同, 其不同 之处仅在于, 本实施例所述系统还包括: 标注单元 600和多音词词库 700。
所述标注单元 600,适于在所述初级推荐词数量小于预设阈值时, 查询 所述多音词词库 700以得到对应所述中文输入的拼音标注。 所述多音词词库 700适于存储中文和所述中文对应的拼音标注, 并且其中以拼音组合的方式 对应包含多音字的中文短语。
所述关键词获取单元 100, 还适于根据所述拼音标注再次查询所述推荐 词词库 400, 得到所述拼音标注对应的扩展中文。 所述扩展中文是通过所述 推荐词词库 400对所述拼音标注直接翻译后得到的中文。 所述地址获取单元 200, 还适于根据所述扩展中文查询所述查找树存储 单元 300, 得到所述扩展中文为前缀的扩展推荐词的地址信息。
所述推荐单元 500, 还适于根据所述扩展推荐词的地址信息查询所述推 荐词词库 400获得扩展推荐词, 然后推荐给用户。
图 3是本发明实施例三所述用于搜索输入的推荐方法的处理流程图, 如 图 3所示, 所述方法包括步骤:
A1 : 接收用户的中文输入, 并将所述中文输入直接作为搜索关键词。本 发明实施例中, 所述用户输入为中文输入或者拼音输入。 实际应用中, 用户 输入还可能包括英文, 以及其他的特殊字符等, 对于这些用户输入的处理, 不是本发明重点, 在此不再贅述。
B1 : 查询查找树存储单元, 在所述中文输入的最末字符对应的节点处找 到以所述中文输入为前缀的初级推荐词的地址信息。 所述查找树存储单元可 以采用 hashmap、 trie树、 datrie树等结构。 图 4是本发明实施例三所述查找 树存储单元和推荐词词库的结构示意图, 如图 4所示, 本实施例中, 所述查 找树存储单元优选采用 datrie树结构, 所述 datrie树中的每个数据节点 (除 根节点之外的节点)记录一个汉字,以及包含所述汉字的推荐词的地址信息。 所述 datrie树通过所述地址信息与所述推荐词词库相对应。 以图 4中 "长"字 节点为例, 其记录了包含有"长"字的所有推荐词的地址信息, 这些推荐词包 括: "长个"、 "长大"、 "长大了"、 " 长江"、 "长江口"、 "长城"、 "长歌"、 "长 歌行"。 通过这种设计, 当搜索关键词的最末字符为 "长"时, 通过查询所述 查找树存储单元, 找到"长"字节点后, 无需再去遍历以"长"字为根节点的子 树, 而可以直接获得所有上述包含"长"字的推荐词。 这样, 在线下建立所述 查找树存储单元时, 可能会消耗一些时间; 然后在线上查询时, 查询速度将 大幅提升, 可以提供每秒百万次的查询速度, 而且性能不随数据规模增大而 下降。
B2:根据所述初级推荐词的地址信息判断相应的初级推荐词的数量是否 大于等于预设阈值, 如果是, 执行步骤 C; 否则, 根据所述初级推荐词的地 址信息查询推荐词词库获得所述初级推荐词, 执行步骤 B3。 所述预设阈值 可以根据实际使用情况设置, 比如设置为 3、 4或者 5。 本实施例中, 所述预 设阈值设置为 3 , 即当所述初级推荐词的数量小于 3时, 认为提供的推荐词 过少, 需要进行扩展。
B3 : 对所述初级推荐词进行扩展, 得到扩展推荐词的地址信息。 图 5是 本发明实施例一所述步骤 B3的流程图 , 如图 5所示, 所述步骤 B3具体包 括步骤:
B301 : 采用正向最大匹配算法, 根据所述初级推荐词查询多音词词库, 得到所述初级推荐词对应的拼音标注。 图 6是本发明实施例三所述多音词词 库的结构示意图, 如图 6所示, 所述多音词词库适于存储中文和所述中文对 应的拼音标注, 其中以拼音组合的方式对应包含多音字的中文短语; 对于单 个汉字, 所述多音词词库中会给出一个默认的常用拼音, 比如"了,,字给出的 默认拼音为" le"。 通过采用这种设计, 当初级推荐词为"我长大了"时, 查询 所述多音词词库, 得到拼音标注是" wo|zhang|da|le", 而不是 "wo|chang|da|le" 或者" wo|zhang|dai|le"等, 避免了多音字造成的翻译噪声。
在用户对搜索引擎的实际使用中, 当用户使用中文关键词进行搜索时, 可能会由于同音别字而导致输入有误, 比如用户想要搜索"唱歌,,的相关信息 时,不小心输入了 "长歌 ",这个时候用户会希望搜索引擎能够在给出类似"长 歌行"这样的推荐词之外, 还能够给出"唱歌"相关的推荐词, 以便用户直接 选取, 而无需重复键入; 但是, 用户并不希望推荐出 "长个,,(zhang|ge ) 的 相关信息。 因此, 在对"长歌"进行拼音标注时, 必须严格的将其只标注为 "chang|ge", 而不能同时将其标注为" zhang|ge,,。 而现有技术中以单个字为单 位进行拼音标注的做法显然无法排除上述多音字带来的噪声, 本发明实施例 通过以中文短语为单位进行拼音标注, 有效避免了这种噪声的干扰。
B302: 根据所述拼音标注查询所述推荐词词库,得到所述拼音标注对应 的扩展中文。 参见图 4, 在所述推荐词词库中以拼音组合的方式对应包含多 音字的中文短语, 比如"长江"的拼音为" chang|jiang", 而"长大"的拼音为 "zhang|da"; 对于单个汉字, 所述推荐词库中会给出一个默认的常用拼音, 比如"长"字给出的默认拼音为 "chang"。
参见图 4, 假设用户输入的中文关键词为"唱歌", 得到的初级推荐词过 少, 通过所述步骤 B103后得到的拼音标注为 "chang|ge", 这时再查询所述推 荐词词库, 所得到的扩展中文将包括: "唱歌,,和 "长歌 "; 而不会包括"长个" ( zhang|ge ) 。 也就是说, 所得到的扩展中文与原始输入的中文关键词的在 当前使用环境下的读音必须相同 (不考虑音调) , 而不仅仅是考虑单个字是 否存在相同的发音,从而进一步避免了由于推荐词库中的多音字而引入噪声 的问题。
B303: 根据所述扩展中文查询所述查找树存储单元, 在所述扩展中文的 最末字符对应的节点处获得所述扩展中文为前缀的扩展推荐词的地址信息。 假设根据步骤 B302得到了扩展中文"长歌", 进而可以扩展出新的推荐 词"长歌" "长歌行", 这样在避免多音字噪声的情况下增加了推荐词数量, 便 于用户选择相应的推荐词。
C1:根据所述初级推荐词或者扩展推荐词的地址信息查询推荐词词库获 得相应的推荐词, 并将相应的推荐词推荐给用户。
图 7是本发明实施例四所述用于搜索输入的推荐方法的处理流程图。本 实施例所述方法与实施例三所述方法基本相同, 不同之处仅在于, 用户输入 为拼音输入。 如图 7所示, 所述方法包括步骤:
ΑΓ: 接收用户的拼音输入, 根据所述拼音输入查询推荐词词库, 得到 所述拼音输入对应的引导中文, 将所述引导中文作为搜索关键词。 以图 4为 例, 假设用户的拼音输入为" chang|ge", 这时得到的引导中文包括: "唱歌" 和"长歌"。
B1 ' : 根据所述引导中文查询查找树存储单元, 在所述引导中文的最末 字符对应的节点处获得所述引导中文为前缀的引导推荐词的地址信息。
C1 ' : 根据所述引导推荐词的地址信息查询推荐词词库获得引导推荐词, 并将所述引导推荐词推荐给用户。
本领域技术人员容易想到, 所述用户输入中还可能同时包括拼音和中 文, 这时可以先对整个用户输入进行分割得到拼音输入部分和中文输入部 分, 然后再基于上述方法分别进行处理。 由于其非本发明重点, 在此不再贅 述。
本发明实施例所述的用于搜索输入的推荐系统及方法,在查找树存储单 元中, 令每个数据节点记录包含该节点字符的所有推荐词的地址信息, 从而 提高了推荐词的查询速度,克服了推荐词库容量增大导致查询速度降低的问 题; 同时, 在推荐词词库和多音词词库中以拼音组合与中文短语相对应,从 而克服了由于多音字而导致的搜索噪音问题, 提高了推荐准确率。
本发明的各个部件实施例可以以硬件实现, 或者以在一个或者多个 处理器上运行的软件模块实现, 或者以它们的组合实现。 本领域的技术 人员应当理解, 可以在实践中使用微处理器或者数字信号处理器 (DSP ) 来实现根据本发明实施例的用于搜索输入的推荐系统中的一些或者全部 部件的一些或者全部功能。 本发明还可以实现为用于执行这里所描述的 方法的一部分或者全部的设备或者装置程序 (例如, 计算机程序和计算 机程序产品) 。 这样的实现本发明的程序可以存储在计算机可读介质上, 或者可以具有一个或者多个信号的形式。 这样的信号可以从因特网网站 上下载得到, 或者在载体信号上提供, 或者以任何其他形式提供。
例如, 图 8示出了可以实现根据本发明的用于搜索输入的推荐方法 的服务器, 例如应用服务器。 该服务器传统上包括处理器 810和以存储 器 820形式的计算机程序产品或者计算机可读介质。 存储器 820可以是 诸如闪存、 EEPROM (电可擦除可编程只读存储器) 、 EPROM、 硬盘或 者 ROM之类的电子存储器。存储器 820具有用于执行上述方法中的任何 方法步骤的程序代码 831的存储空间 830。 例如, 用于程序代码的存储空 间 830可以包括分别用于实现上面的方法中的各种步骤的各个程序代码 831。 这些程序代码可以从一个或者多个计算机程序产品中读出或者写入 到这一个或者多个计算机程序产品中。 这些计算机程序产品包括诸如硬 盘, 紧致盘 (CD ) 、 存储卡或者软盘之类的程序代码载体。 这样的计算 机程序产品通常为如参考图 9所述的便携式或者固定存储单元。 该存储 单元可以具有与图 8的服务器中的存储器 820类似布置的存储段、 存储 空间等。 程序代码可以例如以适当形式进行压缩。 通常, 存储单元包括 计算机可读代码 83 Γ , 即可以由例如诸如 810之类的处理器读取的代码, 这些代码当由服务器运行时, 导致该服务器执行上面所描述的方法中的 各个步骤。
本文中所称的 "一个实施例"、 "实施例"或者"一个或者多个实施例 "意 味着, 结合实施例描述的特定特征、 结构或者特性包括在本发明的至少 一个实施例中。 此外, 请注意, 这里"在一个实施例中"的词语例子不一定 全指同一个实施例。
在此处所提供的说明书中, 说明了大量具体细节。 然而, 能够理解, 中, 并未详细示出公知的方法、 结构和技术, 以便不模糊对本说明书的 理解。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限 制, 并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计 出替换实施例。 在权利要求中, 不应将位于括号之间的任何参考符号构 造成对权利要求的限制。单词"包含"不排除存在未列在权利要求中的元件 或步骤。 位于元件之前的单词 "一"或"一个"不排除存在多个这样的元件。 本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计 算机来实现。 在列举了若干装置的单元权利要求中, 这些装置中的若干 个可以是通过同一个硬件项来具体体现。 单词第一、 第二、 以及第三等 的使用不表示任何顺序。 可将这些单词解释为名称。
此外, 还应当注意, 本说明书中使用的语言主要是为了可读性和教 导的目的而选择的, 而不是为了解释或者限定本发明的主题而选择的。 因此, 在不偏离所附权利要求书的范围和精神的情况下, 对于本技术领 域的普通技术人员来说许多修改和变更都是显而易见的。 对于本发明的 范围, 对本发明所做的公开是说明性的, 而非限制性的, 本发明的范围 由所附权利要求书限定。

Claims

权 利 要 求
1、 一种用于搜索输入的推荐系统, 其包括: 关键词获取单元、 查找树 存储单元、 推荐词词库、 地址获取单元和推荐单元;
所述关键词获取单元, 适于根据用户输入获得搜索关键词;
所述查找树存储单元, 适于以树形数据结构存储汉字, 树中每个数据节 点存储一个汉字, 以及包含所述汉字的推荐词的地址信息;
所述推荐词词库, 适于存储所述推荐词;
所述地址获取单元, 适于根据所述搜索关键词查询所述查找树存储单 元, 获得所述推荐词的地址信息;
所述推荐单元,适于根据所述地址信息查询所述推荐词词库获得所述推 荐词 , 并将所述推荐词推荐给用户。
2、 如权利要求 1所述的系统, 其中, 所述用户输入为拼音输入或者中 文输入。
3、 如权利要求 2所述的系统, 其中, 所述推荐词词库中还存储对应所 述推荐词的拼音;
所述关键词获取单元, 适于根据所述拼音输入查询所述推荐词词库,得 到所述拼音输入对应的引导中文,并将所述引导中文作为搜索关键词;或者, 直接将所述中文输入作为搜索关键词。
4、 如权利要求 3所述的系统, 其中, 所述地址获取单元, 适于根据所 述引导中文查询所述查找树存储单元,得到所述引导中文为前缀的引导推荐 词的地址信息; 所述推荐单元, 适于根据所述引导推荐词的地址信息查询所 述推荐词词库获得相应的推荐词, 然后推荐给用户; 或者,
所述地址获取单元, 适于根据所述中文输入查询所述查找树存储单元, 得到所述中文输入为前缀的初级推荐词的地址信息; 所述推荐单元, 适于根 据所述初级推荐词的地址信息查询所述推荐词词库获得相应的初级推荐词, 并将所述初级推荐词推荐给用户。
5、 如权利要求 4所述的系统, 其中, 所述系统还包括: 多音词词库和 标注单元;
所述多音词词库, 适于存储中文和所述中文对应的拼音标注;
所述标注单元, 适于在所述初级推荐词数量小于预设阈值时, 查询所述 多音词词库以得到对应所述中文输入的拼音标注; 所述关键词获取单元,还适于根据所述拼音标注再次查询所述推荐词词 库, 得到所述拼音标注对应的扩展中文;
所述地址获取单元, 还适于根据所述扩展中文查询所述查找树存储单 元, 得到所述扩展中文为前缀的扩展推荐词的地址信息;
所述推荐单元,还适于根据所述扩展推荐词的地址信息查询推荐词词库 获得相应的推荐词 , 然后推荐给用户。
6、 如权利要求 5所述的系统, 其中, 所述多音词词库中以拼音组合的 方式对应包含多音字的中文短语。
7、 如权利要求 1所述的系统, 其中, 所述推荐词词库中以拼音组合的 方式对应包含多音字的中文短语。
8、 如权利要求 1所述的系统, 其中, 所述查找树存储单元采用 Double Array Trie树结构存储汉字。
9、 一种用于搜索输入的推荐方法, 其包括步骤:
A: 根据用户输入获得搜索关键词;
B: 根据所述搜索关键词查询查找树存储单元, 获得推荐词的地址信息; 所述查找树存储单元, 适于以树形数据结构存储汉字, 树中每个数据节点存 储一个汉字, 以及包含所述汉字的推荐词的地址信息;
C: 根据所述推荐词的地址信息查询推荐词词库获得推荐词, 并将所述 推荐词推荐给用户; 所述推荐词词库, 适于存储所述推荐词。
10、 如权利要求 9所述的方法, 其中, 所述用户输入为中文输入或者拼 音输入。
11、 如权利要求 10所述的方法, 其中, 当所述用户输入为中文输入时, 所述步骤 A具体包括:
A1 : 接收用户的中文输入, 并将所述中文输入直接作为搜索关键词。
12、 如权利要求 11所述的方法, 其中, 所述步骤 B具体包括:
B1 : 查询查找树存储单元, 在所述中文输入的最末字符对应的节点处找 到以所述中文输入为前缀的初级推荐词的地址信息。
13、 如权利要求 12所述的方法, 其中, 所述步骤 B1后还包括:
B2:根据所述初级推荐词的地址信息判断相应的初级推荐词的数量是否 大于等于预设阈值, 如果是, 执行步骤 C; 否则, 根据所述初级推荐词的地 址信息查询推荐词词库获得所述初级推荐词, 执行步骤 B3;
B3: 对所述初级推荐词进行扩展, 得到扩展推荐词的地址信息。
14、 如权利要求 13所述的方法, 其中, 所述步骤 B3具体包括:
B301 : 根据所述初级推荐词查询多音词词库,得到所述初级推荐词对应 的拼音标注;
B302: 根据所述拼音标注查询所述推荐词词库,得到所述拼音标注对应 的扩展中文;
B303: 根据所述扩展中文查询所述查找树存储单元, 在所述扩展中文的 最末字符对应的节点处获得所述扩展中文为前缀的扩展推荐词的地址信息。
15、 如权利要求 14所述的方法, 其中, 所述步骤 B301中, 采用正向最 大匹配算法查询所述多音词词库, 得到所述初级推荐词对应的拼音标注。
16、 如权利要求 14或者 15所述的方法, 其中, 所述多音词词库中以拼 音组合的方式对应包含多音字的中文短语。
17、 如权利要求 10所述的方法, 其中, 当所述用户输入为拼音输入时, 所述步骤 A具体包括:
ΑΓ: 接收用户的拼音输入, 根据所述拼音输入查询推荐词词库, 得到 所述拼音输入对应的引导中文, 将所述引导中文作为搜索关键词。
18、 如权利要求 17所述的方法, 其中, 所述步骤 B具体包括:
ΒΓ: 根据所述引导中文查询所述查找树存储单元, 在所述引导中文的 最末字符对应的节点处获得所述引导中文为前缀的引导推荐词的地址信息。
19、 如权利要求 9所述的方法, 其中, 所述推荐词词库中以拼音组合的 方式对应包含多音字的中文短语。
20、 如权利要求 9所述的方法, 其中, 所述查找树存储单元采用 Double Array Trie树结构存储汉字。
21、 一种计算机程序, 包括计算机可读代码, 当所述计算机可读代 码在服务器上运行时, 导致所述服务器执行根据权利要求 9-20中的任一 个所述的用于搜索输入的推荐方法。
22、 一种计算机可读介质, 其中存储了如权利要求 21所述的计算机 程序。
PCT/CN2013/075639 2012-06-26 2013-05-15 一种用于搜索输入的推荐系统及方法 WO2014000517A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US14/411,091 US9971834B2 (en) 2012-06-26 2013-05-15 Recommendation system and method for search input

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201210215120.4 2012-06-26
CN201210215120.4A CN102768681B (zh) 2012-06-26 2012-06-26 一种用于搜索输入的推荐系统及方法

Publications (1)

Publication Number Publication Date
WO2014000517A1 true WO2014000517A1 (zh) 2014-01-03

Family

ID=47096085

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2013/075639 WO2014000517A1 (zh) 2012-06-26 2013-05-15 一种用于搜索输入的推荐系统及方法

Country Status (3)

Country Link
US (1) US9971834B2 (zh)
CN (1) CN102768681B (zh)
WO (1) WO2014000517A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909128A (zh) * 2019-11-08 2020-03-24 深圳市彬讯科技有限公司 一种利用词根表进行数据查询的方法、设备、及存储介质
CN111653328A (zh) * 2020-06-04 2020-09-11 医渡云(北京)技术有限公司 病历信息推送方法、装置、存储介质及电子设备
CN112230781A (zh) * 2019-07-15 2021-01-15 腾讯科技(深圳)有限公司 字符推荐方法、装置及存储介质
CN113076390A (zh) * 2021-04-20 2021-07-06 深圳华南城网科技有限公司 一种违禁词查询方法及装置
CN113569010A (zh) * 2021-07-23 2021-10-29 北京百度网讯科技有限公司 过滤检索结果的方法、装置、设备以及存储介质
CN114444501A (zh) * 2022-01-24 2022-05-06 荃豆数字科技有限公司 一种中药饮片的搜索方法、装置、电子设备及存储介质
CN116628129A (zh) * 2023-07-21 2023-08-22 南京爱福路汽车科技有限公司 一种汽车配件搜索方法及系统

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102768681B (zh) * 2012-06-26 2014-10-22 北京奇虎科技有限公司 一种用于搜索输入的推荐系统及方法
CN102999609A (zh) * 2012-11-22 2013-03-27 北京奇虎科技有限公司 网络小说搜索系统
CN103885961B (zh) * 2012-12-20 2015-10-28 腾讯科技(深圳)有限公司 一种关联搜索词的推荐方法及系统
CN103150362B (zh) * 2013-02-28 2016-08-03 北京奇虎科技有限公司 一种视频搜索方法及系统
CN103136694A (zh) * 2013-03-20 2013-06-05 焦点科技股份有限公司 基于搜索行为感知的协同过滤推荐方法
CN103631886B (zh) * 2013-11-15 2018-03-09 北京奇虎科技有限公司 在浏览器侧进行输入的方法和设备
CN104899214B (zh) * 2014-03-06 2018-05-22 阿里巴巴集团控股有限公司 一种建立输入建议的数据处理方法和系统
CN103902720B (zh) * 2014-04-10 2017-11-21 北京博雅立方科技有限公司 一种关键词的拓展词获取方法及装置
CN104331434A (zh) * 2014-10-22 2015-02-04 乐视网信息技术(北京)股份有限公司 一种生成搜索提示词服务的方法及其装置
US20170193291A1 (en) * 2015-12-30 2017-07-06 Ryan Anthony Lucchese System and Methods for Determining Language Classification of Text Content in Documents
CN108694186A (zh) * 2017-04-07 2018-10-23 阿里巴巴集团控股有限公司 数据发送方法及服务器应用、计算设备及计算机可读介质
CN107609098B (zh) * 2017-09-11 2019-02-01 北京金堤科技有限公司 搜索方法及装置
CN108595584B (zh) * 2018-04-18 2022-06-07 卓望数码技术(深圳)有限公司 一种基于数字标记的汉字输出方法和系统
CN111831876B (zh) * 2019-04-15 2024-07-23 北京四维图新科技股份有限公司 查询方法、设备和存储介质
CN110727837B (zh) * 2019-09-17 2023-09-22 达观数据有限公司 显示搜索推荐列表中的字符的方法及装置
CN113515585B (zh) * 2020-04-10 2024-08-06 中国石油化工股份有限公司 危险化学品安全领域专业词库的构造方法、检索方法及系统
CN111737986A (zh) * 2020-05-15 2020-10-02 深圳市世强元件网络有限公司 一种基于多叉树的搜索词推荐方法及系统
WO2021227059A1 (zh) 2020-05-15 2021-11-18 深圳市世强元件网络有限公司 一种基于多叉树的搜索词推荐方法及系统
CN111680489B (zh) * 2020-06-10 2021-11-19 腾讯科技(深圳)有限公司 目标文本的匹配方法和装置、存储介质及电子设备
CN112579736A (zh) * 2020-12-15 2021-03-30 百度在线网络技术(北京)有限公司 信息搜索方法、装置、电子设备和计算机可读存储介质
CN112749258A (zh) * 2021-01-21 2021-05-04 京东数字科技控股股份有限公司 数据搜索的方法和装置、电子设备和存储介质
CN112905871B (zh) * 2021-03-29 2023-05-30 中国平安人寿保险股份有限公司 热点关键词推荐方法、装置、终端及存储介质
CN112989230B (zh) * 2021-05-19 2021-08-31 盛威时代科技集团有限公司 一种基于分词和多音字的检索方法、系统及电子设备
CN113722426A (zh) * 2021-07-30 2021-11-30 福建拓尔通软件有限公司 一种政府网站搜索方法、系统、设备及介质
CN114153884B (zh) * 2021-11-09 2022-07-12 安徽大学 一种基于区块链的智能档案管理利用系统
CN114397966B (zh) * 2022-01-06 2024-09-24 上海沄熹科技有限公司 一种数据库的关键字纠错提示方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101192108A (zh) * 2007-03-28 2008-06-04 腾讯科技(深圳)有限公司 一种中文拼音输入方法及系统
CN101268463A (zh) * 2005-08-24 2008-09-17 雅虎公司 在完成搜索查询之前提出可选查询
CN101458694A (zh) * 2008-10-09 2009-06-17 浙江大学 一种基于树形词库的中文分词方法
CN101727499A (zh) * 2010-01-07 2010-06-09 广东国笔科技股份有限公司 一种存储单词库、及搜索单词的方法及系统
CN102768681A (zh) * 2012-06-26 2012-11-07 北京奇虎科技有限公司 一种用于搜索输入的推荐系统及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8024319B2 (en) * 2007-01-25 2011-09-20 Microsoft Corporation Finite-state model for processing web queries
CN101989282A (zh) * 2009-07-31 2011-03-23 中国移动通信集团公司 对中文查询词进行纠错的方法及其装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101268463A (zh) * 2005-08-24 2008-09-17 雅虎公司 在完成搜索查询之前提出可选查询
CN101192108A (zh) * 2007-03-28 2008-06-04 腾讯科技(深圳)有限公司 一种中文拼音输入方法及系统
CN101458694A (zh) * 2008-10-09 2009-06-17 浙江大学 一种基于树形词库的中文分词方法
CN101727499A (zh) * 2010-01-07 2010-06-09 广东国笔科技股份有限公司 一种存储单词库、及搜索单词的方法及系统
CN102768681A (zh) * 2012-06-26 2012-11-07 北京奇虎科技有限公司 一种用于搜索输入的推荐系统及方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112230781A (zh) * 2019-07-15 2021-01-15 腾讯科技(深圳)有限公司 字符推荐方法、装置及存储介质
CN112230781B (zh) * 2019-07-15 2023-07-25 腾讯科技(深圳)有限公司 字符推荐方法、装置及存储介质
CN110909128A (zh) * 2019-11-08 2020-03-24 深圳市彬讯科技有限公司 一种利用词根表进行数据查询的方法、设备、及存储介质
CN110909128B (zh) * 2019-11-08 2023-08-11 土巴兔集团股份有限公司 一种利用词根表进行数据查询的方法、设备、及存储介质
CN111653328A (zh) * 2020-06-04 2020-09-11 医渡云(北京)技术有限公司 病历信息推送方法、装置、存储介质及电子设备
CN111653328B (zh) * 2020-06-04 2023-03-21 医渡云(北京)技术有限公司 病历信息推送方法、装置、存储介质及电子设备
CN113076390A (zh) * 2021-04-20 2021-07-06 深圳华南城网科技有限公司 一种违禁词查询方法及装置
CN113569010A (zh) * 2021-07-23 2021-10-29 北京百度网讯科技有限公司 过滤检索结果的方法、装置、设备以及存储介质
CN113569010B (zh) * 2021-07-23 2023-12-12 北京百度网讯科技有限公司 过滤检索结果的方法、装置、设备以及存储介质
CN114444501A (zh) * 2022-01-24 2022-05-06 荃豆数字科技有限公司 一种中药饮片的搜索方法、装置、电子设备及存储介质
CN116628129A (zh) * 2023-07-21 2023-08-22 南京爱福路汽车科技有限公司 一种汽车配件搜索方法及系统
CN116628129B (zh) * 2023-07-21 2024-02-27 南京爱福路汽车科技有限公司 一种汽车配件搜索方法及系统

Also Published As

Publication number Publication date
US9971834B2 (en) 2018-05-15
CN102768681B (zh) 2014-10-22
US20150339384A1 (en) 2015-11-26
CN102768681A (zh) 2012-11-07

Similar Documents

Publication Publication Date Title
WO2014000517A1 (zh) 一种用于搜索输入的推荐系统及方法
US10296538B2 (en) Method for matching images with content based on representations of keywords associated with the content in response to a search query
JP6006327B2 (ja) 検索方法、検索装置及び検索エンジンシステム
US9418128B2 (en) Linking documents with entities, actions and applications
US9208450B1 (en) Method and apparatus for template-based processing of electronic documents
CN104199954B (zh) 一种用于搜索输入的推荐系统及方法
KR101522049B1 (ko) 모호성 민감 자연 언어 처리 시스템에서의 동일 지시어 분석
US9020951B2 (en) Methods for indexing and searching based on language locale
JP2017509049A (ja) 検索結果におけるコヒーレントな質問回答
US10496686B2 (en) Method and system for searching and identifying content items in response to a search query using a matched keyword whitelist
US9092512B2 (en) Corpus search improvements using term normalization
EP2192503A1 (en) Optimised tag based searching
US8583415B2 (en) Phonetic search using normalized string
US20170351706A1 (en) Method and system for matching images with content using whitelists and blacklists in response to a search query
US8725766B2 (en) Searching text and other types of content by using a frequency domain
US8914377B2 (en) Methods for prefix indexing
US8229970B2 (en) Efficient storage and retrieval of posting lists
CN104268176A (zh) 一种基于搜索关键词的推荐方法及系统
US20090234824A1 (en) Browser Use of Directory Listing for Predictive Type-Ahead
CN105630837B (zh) 一种媒体记录搜索方法和装置
JP2013222418A (ja) パッセージ分割方法、装置、及びプログラム
CN114595696A (zh) 实体消歧方法、实体消歧装置、存储介质与电子设备
JP5691558B2 (ja) 例文検索装置、処理方法およびプログラム
TW201124860A (en) Method and apparatus for identifying synonym, and searching method and apparatus utilizing the same.
US10275518B2 (en) Integrated phonetic matching methods and systems

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13809426

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14411091

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13809426

Country of ref document: EP

Kind code of ref document: A1