WO2014067298A1 - 实时检索信息获取方法、装置及服务器 - Google Patents

实时检索信息获取方法、装置及服务器 Download PDF

Info

Publication number
WO2014067298A1
WO2014067298A1 PCT/CN2013/080071 CN2013080071W WO2014067298A1 WO 2014067298 A1 WO2014067298 A1 WO 2014067298A1 CN 2013080071 W CN2013080071 W CN 2013080071W WO 2014067298 A1 WO2014067298 A1 WO 2014067298A1
Authority
WO
WIPO (PCT)
Prior art keywords
time
retrieval
real
search
target time
Prior art date
Application number
PCT/CN2013/080071
Other languages
English (en)
French (fr)
Inventor
李梦凡
Original Assignee
腾讯科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 腾讯科技(深圳)有限公司 filed Critical 腾讯科技(深圳)有限公司
Publication of WO2014067298A1 publication Critical patent/WO2014067298A1/zh
Priority to US14/702,344 priority Critical patent/US20150234883A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2308Concurrency control
    • G06F16/2315Optimistic concurrency control
    • G06F16/2322Optimistic concurrency control using timestamps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Definitions

  • the subject matter disclosed herein relates to the field of data retrieval, and more particularly to real-time retrieval of information acquisition methods, devices, and servers. Background technique
  • the keywords in the database are separately retrieved to generate a corresponding data distribution trend graph.
  • the relevant data distribution obtained in advance is obtained.
  • the trend graph can be returned to the user's required data distribution trend graph, and real-time updates cannot be achieved.
  • a real-time retrieval information acquisition method, apparatus and server are provided to reduce the computational complexity of real-time retrieval.
  • the real-time retrieval information acquisition method includes:
  • a real-time retrieval device comprising: a retrieval request acquisition module, obtaining a retrieval keyword in a real-time retrieval request, and a retrieval target time; corresponding inverted blocks;
  • the search module performs a search in the inverted block corresponding to the search target time based on the search keyword, and obtains a search result of the real-time search request.
  • a real time retrieval server comprising the real time retrieval means of the second aspect.
  • the newly added time hopping table in the data inversion index can quickly find the inverted block corresponding to the retrieval target time, thereby realizing fast real-time data retrieval.
  • real-time acquisition of data distribution trend graphs under limited cost can be achieved.
  • FIG. 1 is a schematic flowchart of a method for acquiring real-time retrieval information according to a first embodiment of the present invention
  • FIG. 2 is a schematic flowchart of a method for acquiring real-time retrieval information according to a second embodiment of the present invention
  • FIG. 4 is a schematic structural diagram of a real-time retrieval device in an embodiment of the present invention.
  • FIG. 1 is a schematic flowchart of a method for acquiring real-time retrieval information according to a first embodiment of the present invention.
  • the real-time retrieval information acquisition method includes the following steps: S101.
  • the search keyword may be a word input by a user, such as "beauty", "porsche", and the like.
  • the search target time includes a target start and stop time of the search, which may be input by the user, or may be selected by the user according to the search target time option provided by the real-time search device, or may be a default search target time of the real-time search device, indicating the user.
  • the search keyword in the obtaining real-time search request and the search keyword in the request are invalid keywords.
  • the case where the retrieval keyword is an invalid keyword includes but is not limited to the following cases:
  • Keywords contain only UHF words (such as "", “Yes” and other UHF words)
  • the search keyword is an invalid keyword
  • the user may return a specific result, such as "the input keyword is incorrect", "the input keyword contains a sensitive word”, "invalid keyword”, etc.
  • the search keyword is not an invalid keyword, the search keyword in the real-time search request and the search target time are acquired. Blocking. ' ' , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,
  • the TimeStampSkipList can find the inverted block corresponding to the retrieval target time by using the time jump table in the data inverted index.
  • the search target time input by the user is the data within the three days from September 21st to September 23rd.
  • the time hopping table in the data inverted index can find the inverted row corresponding to September 21st to September 23rd.
  • the retrieval target time may be firstly mapped to a corresponding hierarchical database by using a time hopping table in the data inversion index, and then the library may be used for storing different time periods respectively when compared with the retrieval target.
  • the inverted block database may include, for example: a micro-loop unit for storing data for the last 3 days; a small loop unit for storing data for the last 10 days to the last 3 days; a medium loop unit for saving the last 30 Data from the last 10 days; large cycle unit, used to save data from the current 30 or more, real-time retrieval device can be inverted by data
  • the time jump table in the index find the corresponding hierarchical database according to the retrieval target time, and then arrange the blocks. For example, if the retrieval target time requested by the user is the last 8 days, then the hierarchical database that can be corresponding includes a micro-loop unit and a small loop unit, and then the two smaller hierarchical databases can be directly searched for the search target time. Invert the table, thus avoiding the search in the huge data database, saving a lot of system resources.
  • the search may be performed in the inverted block searched in step S102 according to the search keyword, the data including the search keyword may be searched, and the search result of the real-time search request may be returned to the user.
  • the result can include the found data, or the statistical result calculated based on the found data.
  • the user wants to retrieve the blog post containing the keyword "beauty,” released in the past 3 days, so that the user can return a list of all the blog posts containing "beauty,” within 3 days, and can also return 3 to the user. All the days including "Beauty," the total number of blog posts, and so on.
  • Fig. 2 is a flow chart showing a method of acquiring real-time retrieval information in a second embodiment of the present invention.
  • the present invention can exemplify the implementation process of the real-time retrieval of the present invention by taking the microblog blog search as an example.
  • the user After the user logs in to the microblog account through a terminal such as a mobile phone or a personal computer, the user sends a real-time search request to the real-time search device to request to retrieve the blog post of interest.
  • a terminal such as a mobile phone or a personal computer
  • the search keyword may be a word input by the user, such as "beauty", "Porsche”, etc.
  • the search target time includes the start and end time of the search, which may be input by the user, or may be based on real-time search by the user.
  • the search target time option provided by the device may be selected by the real-time search device as the default search target time, indicating that the user wishes to search for data related to the search keyword within the time range.
  • the data inversion index in the embodiment of the present invention includes a time hopping table TimeStampSkipList, which can be found by the time hopping table in the data inverted index.
  • the inverted block corresponding to the marked time for example, the search target time input by the user is the data within the three days from September 21 to September 23, and can be found through the time jump table in the data inverted index and September 21 ⁇ The corresponding inverted block on September 23.
  • the user sends a real-time search request to the real-time search device, and can select to simultaneously request a data distribution trend graph related to the search keyword.
  • the real-time retrieval device acquires the real-time retrieval request, it may determine from the real-time retrieval request whether the user has requested the data distribution trend graph. If yes, execute S205, otherwise execute S208.
  • the target time segment may be a target time segment defined by the user in the real-time retrieval request, for example, from September 21 to September 23 in the above three days as a time segment
  • the real-time retrieval device may automatically acquire the corresponding target time segment according to the retrieval target time in the real-time retrieval request. For example, if the retrieval target time is greater than 10 days, each natural day may be automatically used as a time segment, if the retrieval If the target time is less than 10 days but greater than 48 hours, then one half of the natural day can be automatically used as a time segment. If the retrieval target time is less than 48 hours, each hour in the retrieval target time can be automatically used as a time segment.
  • the search may be performed in the inverted block searched in step S203 according to the search keyword, and the blog content including the search keyword may be searched, and the related statistical result of the searched data may be segmented according to the target time.
  • the merging and dividing is performed to obtain the data distribution information requested by the user.
  • the blog post including the keyword "beauty” released on September 21 is 30w posts
  • the blog post including the keyword "beauty” released on September 22 is 35w posts.
  • the blog post including the keyword "beauty” released on September 24th is a 40w post.
  • S207 Generate a data distribution trend graph according to the data distribution information in the target time segment. Specifically, the distribution information of the requested keyword within the target time segment may be displayed to the user by, for example, a columnar distribution trend graph.
  • S208 Perform a search in the inverted block corresponding to the search target time according to the search keyword, and obtain a search result of the real-time search request.
  • the row search finds the data containing the search keyword and returns the search result of the real-time search request to the user.
  • the result may include the found data, or may be a statistical result calculated based on the found data.
  • the user wants to retrieve the blog post containing the keyword "beauty,” released in the past 3 days, so that the user can return a list of all the blog posts containing "beauty,” within 3 days, and can also return 3 to the user. All the days including "Beauty,” the total number of blog posts, and so on.
  • FIG. 3 is a schematic flowchart of a method for acquiring real-time retrieval information according to a third embodiment of the present invention, where the method for acquiring real-time retrieval information includes:
  • the search keyword may be a keyword input by the user, such as "beauty", "porsche,”, etc.
  • the retrieval target time includes a target start and end time of the retrieval, which may be input by the user, or may be based on the real-time according to the user.
  • the search target time option provided by the search device may be selected by the real-time search device as the default search target time, indicating that the user wishes to search for data related to the search keyword within the time range.
  • the preset time range may be, for example, 20 days, 30 days, or 60 days, etc., when the user sends the real-time retrieval request.
  • the real-time retrieval device may need to search a large amount of data for the retrieval, and consume a large amount of computing resources.
  • a combination of accurate calculation and estimation may be used to obtain the retrieval result requested by the user, wherein
  • the data of the retrieval target time is accurately calculated, and the data distribution information of the reference retrieval target time is obtained by combining the reference target time segmentation, so that the retrieval result of the retrieval target time requested by the user can be reliably estimated.
  • the reference retrieval target time may be nearly 10 days, 15 days or 30 days before the real-time retrieval request submitted by the user is received. Of course, the longer the reference retrieval time is selected, the closer the estimation result may be to the real result.
  • the reference target time segment can be a time segment for each half day or every day. The inverted block.
  • the data inversion index in the embodiment of the present invention includes a time hopping table TimeStampSkipList, and the time hopping table in the data inversion index can be used to find an inverted block corresponding to the reference retrieval target time, for example, received.
  • the real-time search request submitted by the user is September 20th
  • the reference retrieval target time can be from September 16th to September 20th, which can be reversed in the data index.
  • the time jump table can find the inverted block corresponding to the fifteen days from September 16 to September 20.
  • the search may be performed in the inverted block searched in step S303 according to the search keyword, and the blog post including the search keyword may be searched, and the related statistical result of the searched data may be segmented according to the target time.
  • the merge division is performed to obtain data distribution information in the reference target time segment.
  • the search result of the search target time requested by the user may be estimated according to the data distribution information in the time segment of each half day of the reference search time of the reference target time, within 6 months before the optional date
  • the search result, the data distribution information in the reference target time segment within 15 days before September 20 has been obtained in S304, and can be segmented every 15 days between March 20 and September 5. Sampling, combining the data distribution information in the reference target time segment with the sample search data obtained every 15 days between March 20 and September 5 to estimate the data within 6 months before September 20 Therefore, it is possible to achieve a better balance of the accuracy of the trend and the problem of large computational resource consumption.
  • the sampling results of the search results may be used in a part of the hierarchical database to estimate the search results in all the hierarchical databases of the level, for example, the user requests to retrieve the keyword "beauty" in the past 10 days, real-time search
  • the server includes 10 small loop units, in which case normal retrieval can be performed in 1 to 3 small loop units, and the obtained data is used to estimate data in all 10 small loop units.
  • FIG. 4 is a schematic structural diagram of a real-time retrieval apparatus according to an embodiment of the present invention.
  • the real-time retrieval apparatus includes at least a retrieval request acquisition module 401, an inverted index module 402, and a retrieval module 403.
  • the retrieval request acquisition module 401 obtains the retrieval keyword and the retrieval target time in the real-time retrieval request.
  • the search keyword may be a word input by the user, such as "beauty", "Porsche”, etc.
  • the search target time includes the start and end time of the search, which may be input by the user, or may be based on real-time search by the user.
  • the selection of the target time option provided by the device may also be
  • the default retrieval target time of the retrieval device indicates that the user wishes to search for data related to the retrieval keyword within the time range. The time corresponds to the inverted block.
  • the data inversion index in the embodiment of the present invention includes a time hopping table.
  • the TimeStampSkipList can find the inverted block corresponding to the search target time by using the time jump table in the data inverted index.
  • the search target time input by the user is the data within the three days from September 21 to September 23.
  • the inverted block corresponding to September 21st to September 23rd can be found by the time jump table in the data inverted index.
  • the inverted index module 402 may include a hierarchical database corresponding unit and an inverted block obtaining unit.
  • the hierarchical database corresponding unit, the retrieval target time is corresponding to the corresponding hierarchical database by using a time hopping table in the data inverted index, where the hierarchical database is used for storing the inverted blocks of different time segments respectively.
  • database may include: a micro-loop unit for storing data of the last 3 days; a small loop unit for storing data from the last 10 days to the last 3 days; a medium circulation unit for saving the last 30 days to the nearest Data within 10 days; Large loop unit, used to store data from the current 30 or more, the hierarchical database corresponding unit can find the corresponding hierarchical database according to the retrieval target time by using the time jump table in the data inverted index.
  • the hierarchical database that can be corresponding includes a micro-loop unit and a small loop unit, and the inverted block obtaining unit can directly search and search in the two smaller hierarchical databases.
  • the inverted table corresponding to the target time avoids the search in the huge data database, which saves a lot of system resources.
  • the search module 403 performs a search in the inverted block corresponding to the search target time based on the search keyword, and obtains a search result of the real-time search request.
  • the searching module 403 may perform a search in the inverted block searched by the inverted index module 402 according to the search keyword, search for data including the search keyword, and return the real-time search request to the user.
  • the result of the search may include the found data or the statistical result calculated based on the found data.
  • the user wants to search for the keyword containing the keyword "beauty,” which was released in the past three days. Bowen, then you can return to the user a list of all the blog posts containing "beauty,” within 3 days, and also return the total number of blog posts containing "beauty,” to the user within 3 days. and many more.
  • the real-time retrieval device further includes a time segment acquisition module 404, a data distribution module 405, and a trend graph generation module 406.
  • the time segmentation is used to obtain the target time segment according to the real-time retrieval request.
  • the time segmentation acquisition block 404 acquires the target time segment according to the user's request, and the target time is obtained.
  • the segmentation may be a target time segment defined by the user in the real-time retrieval request, for example, the above-mentioned September 21st to September 23rd, three days as a time segment, or may be a real-time retrieval device according to the The retrieval target time in the real-time retrieval request automatically acquires the corresponding target time segment.
  • each natural day may be automatically used as a time segment
  • the retrieval target time is less than 10 days but greater than For 48 hours, then one half of the natural day can be automatically used as a time segment. If the retrieval target time is less than 48 hours, each hour of the retrieval target time can be automatically used as a time segment.
  • the data distribution obtaining module 405 is configured to obtain, according to the search keyword and the target time segment, a data distribution letter in the target time segment in an inverted block corresponding to the retrieval target time, which may be
  • the search keyword is searched in the inverted block searched by the inverted index module 402, searches for a blog post containing the search keyword, and merges the found related data statistical results according to the target time segmentation.
  • the blog post including the keyword "beauty” released on September 21 is 30w posts
  • the blog post including the keyword "beauty” released on September 22 is 35w posts, September.
  • the blog post including the keyword "beauty” released on the 24th is a 40w post.
  • the trend graph generation module 406 generates a data distribution trend graph based on the data distribution information in the target time segment.
  • the distribution information of the requested keyword within the target time segment may be displayed to the user by, for example, a columnar distribution trend graph.
  • the real-time retrieval device may further include a reference target time acquisition module 407 and an estimation module 408.
  • the reference target time acquisition module 407 obtains a reference retrieval target time and a reference target time segment when the retrieval target time in the real-time retrieval request exceeds a preset time range.
  • the preset time range may be, for example, 20 days, 30 days, or 60 days, etc., when the retrieval target time in the real-time retrieval request sent by the user exceeds a preset time range, the real-time retrieval device may need to search for the retrieval.
  • a large amount of data consumes a large amount of computing resources, so a combination of accurate calculation and estimation can be used to obtain the search result requested by the user, wherein the data in the reference retrieval target time is accurately calculated, and the reference target time segment is used to obtain the reference search.
  • the data distribution information in the target time so that the retrieval result of the retrieval target time requested by the user can be reliably estimated.
  • the reference retrieval target time may be nearly 10 days, 15 days or 30 days before the real-time retrieval request submitted by the user is received. Of course, the longer the reference retrieval time is selected, the closer the estimation result may be to the real result.
  • the reference target time segment can be a time segment for each half day or every day.
  • the inverted index module 402 further acquires an inverted block corresponding to the reference retrieval target time by using a time hopping table in the data inverted index.
  • the data distribution obtaining module 405 further acquires data distribution information in the reference target time segment according to the detection block.
  • the estimating module 408 estimates a retrieval result of the retrieval target time in the real-time retrieval request according to the data distribution information in the reference target time segment.
  • the data distribution information in the time segment of each half day of the reference target time of 15 days may be retrieved, and the estimation module 408 estimates the retrieval time of the retrieval target time requested by the user, for example, the user requests the September 20th.
  • S304 has obtained the data distribution information in the reference target time segment within 15 days before September 20, which can be every 15 between March 20 and September 5.
  • the time segmentation of the day is sampled, and the data distribution information in the reference target time segment is combined with the sample retrieval data obtained every 15 days between March 20 and September 5 to 6 before September 20
  • the data in the month is estimated, so that the accuracy of the balance trend and the problem of large computational resource consumption can be achieved.
  • the sampling result of the retrieval result may be used in a part of the hierarchical database to estimate the retrieval result in all the hierarchical databases of the level, for example, the user requests to retrieve the keyword "beauty" in the past 10 days, real-time retrieval
  • the server includes 10 small loop units, in which case normal retrieval can be performed in 1 to 3 small loop units, and the obtained data is used to estimate data in all 10 small loop units.
  • the real-time retrieval device may further include a logic determination module 409.
  • the logic determining module 409 according to the preset logic determining rule, in the real-time retrieval request Search for whether the keyword is an invalid keyword.
  • the case where the retrieval keyword is an invalid keyword includes but is not limited to the following cases:
  • Keywords contain only UHF words (such as "", “Yes” and other UHF words)
  • the notification search request acquisition module 401 acquires the search keyword and the search target time in the real-time search request.
  • the embodiment of the present invention also provides a real-time retrieval server, including the real-time retrieval device described above in connection with FIG.
  • the newly added time hopping table in the data inversion index can quickly find the inverted block corresponding to the retrieval target time, thereby realizing rapid real-time data retrieval, thereby realizing the data distribution trend graph under limited cost. Real-time access.
  • the storage medium may be a magnetic disk, an optical disk, a read-only memory (ROM), or a random access memory (RAM).

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种实时检索信息获取方法,所述方法包括:获取实时检索请求中的检索关键词以及检索目标时间;通过数据倒排索引中的时间跳表获取与所述检索目标时间对应的倒排块;根据所述检索关键词在与所述检索目标时间对应的倒排块中进行检索,得到所述实时检索请求的检索结果。本发明还提供了一种实时检索装置以及服务器。采用本发明,实现快速的实时数据检索,进而可以实现有限成本下的数据分布趋势图的实时获取。

Description

实时检索信息获取方法、 装置 ¾J艮务器 本专利申请要求 2012 年 11 月 05 日提交的中国专利申请号为 201210434732.2, 发明名称为 "一种实时检索信息获取方法、 装置及服务器" 的优先权, 该申请的全文以引用的方式并入本申请中。 技术领域
这里公开的主题内容涉及数据检索领域, 尤其涉及实时检索信息获取方 法、 装置及服务器。 背景技术
随着信息技术的快速发展,人们生活中获取的信息量已几何级数上升,如 何在海量信息中获取用户需要的数据,正是数据检索技术所要解决的问题。如 今数据检索技术已经被广泛应用在各个行业中, 以微博的博文检索应用为例, 用户在检索相关关键词的博文的同时会想要知道相关博文的统计数据,例如相 关博文历史总数、一段时间的博文数量分布趋势等,现有技术在进行相关统计 时通常采用的是根据关键词在所有数据库中进行检索,筛选出对应时间段的数 据从而向用户返回检索结果,对于数据分布趋势图由于计算量太过巨大,通常 采用的是在检索系统空闲时对数据库中的关键词分别进行萬线检索从而生成 对应的数据分布趋势图,当用户请求的关键词命中检索系统预先得到的相关数 据分布趋势图时才能够返回给用户需要的数据分布趋势图, 无法实现实时更 新。 发明内容
有鉴于此, 根据本发明的第一方面, 提供一种实时检索信息获取方法、 装 置及服务器, 以降低实时检索的计算复杂度。
该实时检索信息获取方法包括:
获取实时检索请求中的检索关键词以及检索目标时间; 根据所述检索关键词在与所述检索目标时间对应的倒排块中进行检索,得 到所述实时检索请求的检索结果。 根据本发明的第二方面, 还提供了一种实时检索装置, 该装置包括: 检索请求获取模块, 获取实时检索请求中的检索关键词以及检索目标时 间; 对应的倒排块;
检索模块,根据所述检索关键词在与所述检索目标时间对应的倒排块中进 行检索, 得到所述实时检索请求的检索结果。
根据本发明的第三方面,还提供了一种实时检索服务器, 该服务器包括上 述第二方面的实时检索装置。
由上面的技术方案可知,在本发明的上述方面中, 通过数据倒排索引中新 增的时间跳表可以快速的找到与检索目标时间对应的倒排块,从而可以实现快 速的实时数据检索, 进而可以实现有限成本下的数据分布趋势图的实时获取。 附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图作筒单地介绍,显而易见地, 下面描述 中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付 出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。
图 1是根据本发明第一实施例中的实时检索信息获取方法的流程示意图; 图 2是根据本发明第二实施例中的实时检索信息获取方法的流程示意图; 图 3是根据本发明第三实施例中的实时检索信息获取方法的流程示意图; 图 4是本发明实施例中的实时检索装置的结构示意图。 具体实施方式
下面将结合本发明实施例中的附图详细描述对本发明的各个实施例, 显 然, 所描述的实施例仅仅是本发明一部分实施例, 而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得 的所有其他实施例, 都属于本发明保护的范围。
参见图 1 , 图 1是根据本发明第一实施例中的一种实时检索信息获取方法 的流程示意图。 所述实时检索信息获取方法包括以下步骤: S101 , 获取实时检索请求中的检索关键词以及检索目标时间。 具体的, 所述检索关键词可以为用户输入的词语, 例如 "美女" 、 "保时 捷"等。 所述检索目标时间包括检索的目标起止时间, 可以是用户输入的, 也 可以是用户根据实时检索装置提供的检索目标时间选项所选择的,也可以是实 时检索装置默认的检索目标时间,表示用户希望搜索该时间范围内的与所述检 索关键词相关的数据。可选的,在所述获取实时检索请求中的检索关键词以及 中的检索关键词是否为无效关键词。判断检索关键词为无效关键词的情况包括 但不限于以下情况:
1.长度大于 20B或小于 4B的纯中文关键词
2.长度大于 20B或小于 2B的其它非纯中文关键词
3.关键词中命中安全敏感词 (例如色情、 政治敏感词)
4.关键词仅包含超高频词 (例如 "的" 、 "是" 等超高频词)
若判断得到所述检索关键词为无效关键词时,则可以向用户返回特定的结 果, 例如 "输入的关键词有误" 、 "输入的关键词包含敏感词" , "无效的关 键词"等, 若判断得到所述检索关键词不是无效关键词时, 则获取实时检索请 求中的检索关键词以及检索目标时间。 排块。 ' ' 、 、 、 日 一 、 、 日 ' ; 、 具体的, 本发明实施例中的数据倒排索引中包括一个时间跳表
TimeStampSkipList,可以通过数据倒排索引中的该时间跳表找到与所述检索目 标时间对应的倒排块。 例如用户输入的检索目标时间为 9月 21 日~9月 23 日 这三天内的数据, 通过数据倒排索引中的时间跳表就可以找到与 9月 21 日~9 月 23 日对应的倒排块。 进一步可选的, 可以首先通过数据倒排索引中的时间 跳表将所述检索目标时间对应到相应的分级数据库,然后在与所述检索目标时 库可以为多个分别用于存储不同时间段的倒排块的数据库, 例如可以包括: 微 循环单元, 用于保存最近 3天的数据; 小循环单元, 用于保存最近 10天至最 近 3天内的数据; 中循环单元, 用于保存最近 30天至最近 10天内的数据; 大 循环单元, 用于保存距离当前 30以上的数据, 实时检索装置可以通过数据倒 排索引中的时间跳表,根据所述检索目标时间找到对应的分级数据库, 然后在 排块。例如用户请求的检索目标时间为最近 8天, 那么可以对应到的分级数据 库包括微循环单元和小循环单元,进而可以直接在这两个较小的分级数据库中 查找与所述检索目标时间对应的倒排表,从而避免了到数据量巨大分级数据库 中进行查找, 节省了大量的系统资源。
S103,根据所述检索关键词在与所述检索目标时间对应的倒排块中进行检 索, 得到所述实时检索请求的检索结果。
具体的, 可以为根据所述检索关键词在步骤 S102中查找到的倒排块中进 行检索, 查找与包含所述检索关键词的数据, 并向用户返回所述实时检索请求 的检索结果。 结果可以包括查找到的数据,也可以为根据查找到的数据经过计 算得到的统计结果。 以微博博文检索为例, 用户希望检索近 3天发布的包含关 键词 "美女,, 的博文, 那么可以向用户返回 3天内所有包含 "美女,, 的博文的 列表, 还可以向用户返回 3天内所有包含 "美女,, 的博文的总数, 等等。
参见图 2, 图 2是根据本发明第二实施例中的实时检索信息获取方法的流 程示意图。本发明可以以微博博文检索为例,详细阐述本发明的实时检索的实 现流程。
5201 , 获取实时检索请求。
具体可以为用户通过手机、个人电脑等终端登陆微博账号后, 向实时检索 装置发送实时检索请求, 请求检索感兴趣的博文。
5202, 获取实时检索请求中的检索关键词以及检索目标时间。
具体的, 所述检索关键词可以为用户输入的词语, 例如 "美女" 、 "保时 捷"等, 所述检索目标时间包括检索的目标起止时间, 可以是用户输入的, 也 可以是用户根据实时检索装置提供的检索目标时间选项所选择的,也可以是实 时检索装置默认的检索目标时间,表示用户希望搜索该时间范围内的与所述检 索关键词相关的数据。 排块。 ' ' 、 、 、 日 一 、 、 日 ' ; 、 具体的, 本发明实施例中的数据倒排索引中包括一个时间跳表 TimeStampSkipList,可以通过数据倒排索引中的该时间跳表找到与所述检索目 标时间对应的倒排块, 例如用户输入的检索目标时间为 9月 21 日~9月 23 日 这三天内的数据, 通过数据倒排索引中的时间跳表就可以找到与 9月 21 日~9 月 23日对应的倒排块。
5204, 判断是否需要数据分布趋势图。
具体的, 用户在向实时检索装置发送实时检索请求, 可以选择同时请求与 检索关键词相关的数据分布趋势图。 实时检索装置在获取到实时检索请求时, 可以从所述实时检索请求中判断用户是否请求了数据分布趋势图。若是, 则执 行 S205 , 否则执行 S208。
5205 , 获取目标时间分段。
具体的,所述目标时间分段可以是所述实时检索请求中由用户自定义的目 标时间分段, 例如上文中的 9月 21 日~9月 23 日三天内每天作为一个时间分 段,也可以为实时检索装置根据所述实时检索请求中的检索目标时间自动获取 对应的目标时间分段, 例如若检索目标时间大于 10天, 则可以自动按照每个 自然天作为一个时间分段, 若检索目标时间小于 10天但大于 48小时, 那么可 以自动按照半个自然天作为一个时间分段, 若检索目标时间小于 48小时则可 以自动按照检索目标时间中每个小时作为一个时间分段。
5206,根据所述检索关键词以及所述目标时间分段在与所述检索目标时间 对应的倒排块中获取在所述目标时间分段中的数据分布信息。
具体的, 可以根据所述检索关键词在步骤 S203中查找到的倒排块中进行 检索, 查找包含所述检索关键词的博文, 并将查找到的相关数据统计结果按照 所述目标时间分段进行归并划分,从而得到用户请求的数据分布信息, 例如得 到 9月 21 日发布的包括关键词 "美女" 的博文为 30w帖, 9月 22日发布的包 括关键词 "美女" 的博文为 35w帖, 9月 24日发布的包括关键词 "美女" 的 博文为 40w帖。
S207, 根据在所述目标时间分段中的数据分布信息生成数据分布趋势图。 具体的,可以采用例如柱状分布趋势图的方式向用户展示所请求的关键词 在目标时间分段内的分布信息。
S208,根据所述检索关键词在与所述检索目标时间对应的倒排块中进行检 索, 得到所述实时检索请求的检索结果。
具体的, 可以为根据所述检索关键词在步骤 S102中查找到的倒排块中进 行检索, 查找与包含所述检索关键词的数据, 并向用户返回所述实时检索请求 的检索结果。 结果可以包括查找到的数据,也可以为根据查找到的数据经过计 算得到的统计结果。 以微博博文检索为例, 用户希望检索近 3天发布的包含关 键词 "美女,, 的博文, 那么可以向用户返回 3天内所有包含 "美女,, 的博文的 列表, 还可以向用户返回 3天内所有包含 "美女,, 的博文的总数, 等等。
参见图 3 , 图 3是根据本发明第三实施例中的实时检索信息获取方法的流 程示意图, 所述实时检索信息获取方法包括:
5301 , 获取实时检索请求中的检索关键词以及检索目标时间。
具体的, 所述检索关键词可以为用户输入的词语, 例如 "美女" 、 "保时 捷,,等, 所述检索目标时间包括检索的目标起止时间, 可以是用户输入的, 也 可以是用户根据实时检索装置提供的检索目标时间选项所选择的,也可以是实 时检索装置默认的检索目标时间,表示用户希望搜索该时间范围内的与所述检 索关键词相关的数据。
5302,当所述判断实时检索请求中的检索目标时间是否超过预设时间范围 具体的, 所述预设时间范围可以例如 20天、 30天或 60天等, 当用户发 送的实时检索请求中的检索目标时间超过预设时间范围时,实时检索装置为该 次检索可能需要搜索大量的数据,耗费大量的计算资源, 因此可以采用精确计 算和估算相结合的方法获取用户请求的检索结果,其中对参考检索目标时间内 的数据进行精确计算,结合参考目标时间分段得到参考检索目标时间内的数据 分布信息,从而可以对用户请求的检索目标时间的检索结果进行可靠估计。所 述参考检索目标时间可以为接收到用户提交的实时检索请求之前的近 10天、 15天或 30天, 当然选取的参考检索时间越长则带来的估计结果可能与真实结 果越接近, 所述参考目标时间分段可以为每半天或每一天作为一个时间分段。 的倒排块。
具体的, 本发明实施例中的数据倒排索引中包括一个时间跳表 TimeStampSkipList,可以通过数据倒排索引中的该时间跳表找到与所述参考检 索目标时间对应的倒排块,例如接收到用户提交的实时检索请求为 9月 20日, 参考检索目标时间可以为 9月 16 日 ~9月 20 日, 可以通过数据倒排索引中的 时间跳表就可以找到与 9月 16日 ~9月 20日这十五天对应的倒排块。
5304,根据所述检索关键词以及所述参考目标时间分段在与所述参考检索 目标时间对应的倒排块中获取在所述参考目标时间分段中的数据分布信息。
具体的, 可以根据所述检索关键词在步骤 S303中查找到的倒排块中进行 检索, 查找包含所述检索关键词的博文, 并将查找到的相关数据统计结果按照 所述目标时间分段进行归并划分,从而得到在所述参考目标时间分段中的数据 分布信息。
5305 ,根据所述在所述参考目标时间分段中的数据分布信息,估计所述实 时检索请求中的检索目标时间的检索结果。
具体实现中, 例如可以根据所述参考检索目标时间 15天中每半天的时间 分段中的数据分布信息,估计用户所请求的检索目标时间的检索结果, 可选的 日之前 6个月内的检索结果, S304中已经得到了 9月 20日之前 15天内的参 考目标时间分段中的数据分布信息, 这时可以在 3月 20至 9月 5 日之间的每 15天的时间分段进行采样,将所述参考目标时间分段中的数据分布信息结合 3 月 20至 9月 5 日之间的每 15天中得到的采样检索数据对 9月 20日之前 6个 月内的数据进行估计,从而可以实现较好地平衡趋势的准确性和计算资源消耗 大的问题。在其他实施例中,还可以采用在一部分分级数据库中进行检索结果 的采样从而估计在所有该级别的分级数据库中的检索结果,例如用户请求检索 关键词 "美女" 近 10天内的博文, 实时检索服务器中包括 10个小循环单元, 这时可以在其中 1~3个小循环单元中进行正常检索,得到的采用数据用于估计 所有 10个小循环单元中的数据。
参见图 4, 图 4是本发明实施例中的实时检索装置的结构示意图, 所述实 时检索装置至少包括检索请求获取模块 401、倒排索引模块 402以及检索模块 403。
检索请求获取模块 401 , 获取实时检索请求中的检索关键词以及检索目标 时间。
具体的, 所述检索关键词可以为用户输入的词语, 例如 "美女" 、 "保时 捷"等, 所述检索目标时间包括检索的目标起止时间, 可以是用户输入的, 也 可以是用户根据实时检索装置提供的检索目标时间选项所选择的,也可以是实 时检索装置默认的检索目标时间,表示用户希望搜索该时间范围内的与所述检 索关键词相关的数据。 时间对应的倒排块。
具体的, 本发明实施例中的数据倒排索引中包括一个时间跳表
TimeStampSkipList,可以通过数据倒排索引中的该时间跳表找到与所述检索目 标时间对应的倒排块, 例如用户输入的检索目标时间为 9月 21 日~9月 23 日 这三天内的数据, 通过数据倒排索引中的时间跳表就可以找到与 9月 21 日~9 月 23 日对应的倒排块。 进一步地, 所述倒排索引模块 402可以包括分级数据 库对应单元及倒排块获取单元。
所述分级数据库对应单元,通过数据倒排索引中的时间跳表将所述检索目 标时间对应到相应的分级数据库中,所述分级数据库为多个分别用于存储不同 时间段的倒排块的数据库。 例如所述分级数据库可以包括: 微循环单元, 用于 保存最近 3天的数据; 小循环单元, 用于保存最近 10天至最近 3天内的数据; 中循环单元, 用于保存最近 30天至最近 10天内的数据; 大循环单元, 用于保 存距离当前 30以上的数据, 分级数据库对应单元可以通过数据倒排索引中的 时间跳表, 根据所述检索目标时间找到对应的分级数据库。 检索目标时间对应的倒排块。例如用户请求的检索目标时间为最近 8天,那么 可以对应到的分级数据库包括微循环单元和小循环单元,倒排块获取单元可以 直接在这两个较小的分级数据库中查找与所述检索目标时间对应的倒排表,从 而避免了到数据量巨大分级数据库中进行查找, 节省了大量的系统资源。
检索模块 403 , 根据所述检索关键词在与所述检索目标时间对应的倒排块 中进行检索, 得到所述实时检索请求的检索结果。
具体的,检索模块 403可以根据所述检索关键词在倒排索引模块 402查找 到的倒排块中进行检索, 查找与包含所述检索关键词的数据, 并向用户返回所 述实时检索请求的检索结果, 结果可以包括查找到的数据,也可以为根据查找 到的数据经过计算得到的统计结果, 以微博博文检索为例, 用户希望检索近 3 天发布的包含关键词 "美女,,的博文,那么可以向用户返回 3天内所有包含 "美 女,,的博文的列表,还可以向用户返回 3天内所有包含 "美女,,的博文的总数, 等等。
进一步可选的, 所述实时检索装置还包括时间分段获取模块 404、 数据分 布获耳 ^莫块 405及趋势图生成模块 406。
时间分段获耳 ^莫块 404, 用于根据所述实时检索请求获取目标时间分段。 具体的,当用户向实时检索装置提交的实时检索请求中同时请求了数据分 布趋势图,那么时间分段获耳 ^莫块 404就根据用户的请求获取所述目标时间分 段,所述目标时间分段可以是所述实时检索请求中由用户自定义的目标时间分 段, 例如上文中的 9月 21 日~9月 23 日三天内每天作为一个时间分段, 也可 以为实时检索装置根据所述实时检索请求中的检索目标时间自动获取对应的 目标时间分段, 例如若检索目标时间大于 10天, 则可以自动按照每个自然天 作为一个时间分段, 若检索目标时间小于 10天但大于 48小时, 那么可以自动 按照半个自然天作为一个时间分段, 若检索目标时间小于 48小时则可以自动 按照检索目标时间中每个小时作为一个时间分段。
数据分布获取模块 405 , 根据所述检索关键词以及所述目标时间分段在与 所述检索目标时间对应的倒排块中获取在所述目标时间分段中的数据分布信 具体的,可以根据所述检索关键词在倒排索引模块 402查找到的倒排块中 进行检索, 查找包含所述检索关键词的博文, 并将查找到的相关数据统计结果 按照所述目标时间分段进行归并划分,从而得到用户请求的数据分布信息, 例 如得到 9月 21 日发布的包括关键词 "美女" 的博文为 30w帖, 9月 22日发布 的包括关键词 "美女" 的博文为 35w帖, 9月 24日发布的包括关键词 "美女" 的博文为 40w帖。
趋势图生成模块 406, 根据在所述目标时间分段中的数据分布信息生成数 据分布趋势图。
具体的,可以采用例如柱状分布趋势图的方式向用户展示所请求的关键词 在目标时间分段内的分布信息。
进一步可选的, 所述实时检索装置还可以包括参考目标时间获取模块 407 及估计模块 408。
所述参考目标时间获取模块 407, 在所述实时检索请求中的检索目标时间 超过预设时间范围时, 获取参考检索目标时间和参考目标时间分段。 具体的, 所述预设时间范围可以例如 20天、 30天或 60天等, 当用户发 送的实时检索请求中的检索目标时间超过预设时间范围时,实时检索装置为该 次检索可能需要搜索大量的数据,耗费大量的计算资源, 因此可以采用精确计 算和估算相结合的方法获取用户请求的检索结果,其中对参考检索目标时间内 的数据进行精确计算,结合参考目标时间分段得到参考检索目标时间内的数据 分布信息,从而可以对用户请求的检索目标时间的检索结果进行可靠估计。所 述参考检索目标时间可以为接收到用户提交的实时检索请求之前的近 10天、 15天或 30天, 当然选取的参考检索时间越长则带来的估计结果可能与真实结 果越接近, 所述参考目标时间分段可以为每半天或每一天作为一个时间分段。
其中,所述倒排索引模块 402还通过数据倒排索引中的时间跳表获取与所 述参考检索目标时间对应的倒排块。所述数据分布获取模块 405还根据所述检 块中获取在所述参考目标时间分段中的数据分布信息。
所述估计模块 408 , 根据所述在所述参考目标时间分段中的数据分布信 息, 估计所述实时检索请求中的检索目标时间的检索结果。
具体实现中, 例如可以根据所述参考检索目标时间 15天中每半天的时间 分段中的数据分布信息,估计模块 408估计用户所请求的检索目标时间的检索 例如用户请求的是 9月 20日之前 6个月内的检索结果, S304中已经得到了 9 月 20 日之前 15天内的参考目标时间分段中的数据分布信息, 这时可以在 3 月 20至 9月 5日之间的每 15天的时间分段进行采样,将所述参考目标时间分 段中的数据分布信息结合 3月 20至 9月 5日之间的每 15天中得到的采样检索 数据对 9月 20日之前 6个月内的数据进行估计, 从而可以实现较好地平衡趋 势的准确性和计算资源消耗大的问题。在其他实施例中,还可以采用在一部分 分级数据库中进行检索结果的采样从而估计在所有该级别的分级数据库中的 检索结果, 例如用户请求检索关键词 "美女" 近 10天内的博文, 实时检索服 务器中包括 10个小循环单元, 这时可以在其中 1~3个小循环单元中进行正常 检索, 得到的采用数据用于估计所有 10个小循环单元中的数据。
进一步可选的, 所述实时检索装置还可以包括逻辑判断模块 409。
所述逻辑判断模块 409, 根据预设的逻辑判断规则所述实时检索请求中的 检索关键词是否为无效关键词。判断检索关键词为无效关键词的情况包括但不 限于以下情况:
1.长度大于 20B或小于 4B的纯中文关键词
2.长度大于 20B或小于 2B的其它非纯中文关键词
3.关键词中命中安全敏感词 (例如色情、 政治敏感词)
4.关键词仅包含超高频词 (例如 "的" 、 "是" 等超高频词)
若判断得到所述检索关键词为无效关键词, 则可以向用户返回特定的结 果, 例如 "输入的关键词有误" 、 "输入的关键词包含敏感词" , "无效的关 键词"等, 若判断得到所述检索关键词不是无效关键词, 则通知检索请求获取 模块 401获取实时检索请求中的检索关键词以及检索目标时间。
上述所有模块均存储在存储器内, 以被处理器执行。
本发明实施例还提供了一种实时检索服务器,包括前文结合图 4所描述的 实时检索装置。
本发明实施例通过数据倒排索引中新增的时间跳表可以快速的找到与检 索目标时间对应的倒排块,从而可以实现快速的实时数据检索, 进而可以实现 有限成本下的数据分布趋势图的实时获取。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算 机可读取存储介质中, 该程序在被处理器执行时, 可包括如上述各方法的实施 例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体( Read-Only Memory, ROM )或随机存者 i己忆体 ( Random Access Memory, RAM )等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之 权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims

权 利 要 求
1、 一种实时检索信息获取方法, 包括:
获取实时检索请求中的检索关键词以及检索目标时间 根据所述检索关键词在与所述检索目标时间对应的倒排块中进行检索,得 到所述实时检索请求的检索结果。
2、 如权利要求 1所述的实时检索信息获取方法, 还包括:
根据所述实时检索请求获取目标时间分段;
根据所述检索关键词以及所述目标时间分段在与所述检索目标时间对应 的倒排块中获取在所述目标时间分段中的数据分布信息;
根据在所述目标时间分段中的数据分布信息生成数据分布趋势图。
3、 如权利要求 1所述的实时检索信息获取方法, 还包括:
当判断实时检索请求中的检索目标时间是否超过预设时间范围时,获取预 设的参考检索目标时间和参考目标时间分段; 排块;
根据所述检索关键词以及所述参考目标时间分段在与所述参考检索目标 时间对应的倒排块中获取在所述参考目标时间分段中的数据分布信息;
根据所述在所述参考目标时间分段中的数据分布信息,估计所述实时检索 请求中的检索目标时间的检索结果。
4、 如权利要求 1~3中任一项所述的实时检索信息获取方法, 所述通过数 据倒排索引中的时间跳表获取与所述检索目标时间对应的倒排块包括:
通过数据倒排索引中的时间跳表将所述检索目标时间对应到相应的分级 数据库中, 所述分级数据库为多个分别用于存储不同时间段的倒排块的数据 库; 应的倒排块。
5、 如权利要求 1~3中任一项所述的实时检索信息获取方法, 在所述获取 实时检索请求中的检索关键词以及检索目标时间之前还包括: 根据预设的逻辑判断规则判断所述实时检索请求中的检索关键词是否为 无效关键词;
若判断得到所述检索关键词不是无效关键词,则获取实时检索请求中的检 索关键词以及检索目标时间。
6、 一种实时检索装置, 包括:
处理器;
存储器; 及
模块组, 所述模块组存储在所述处理器内, 并被所述处理器执行, 其中所 述模块组包括:
检索请求获取模块,被配置为获取实时检索请求中的检索关键词以及检索 目标时间;
倒排索引模块,被配置为通过数据倒排索引中的时间跳表获取与所述检索 目标时间对应的倒排块;
检索模块,被配置为根据所述检索关键词在与所述检索目标时间对应的倒 排块中进行检索, 得到所述实时检索请求的检索结果。
7、 如权利要求 6所述的实时检索装置, 所述模块组还包括:
时间分段获耳 ^莫块, 被配置为根据所述实时检索请求获取目标时间分段; 数据分布获取模块,被配置为根据所述检索关键词以及所述目标时间分段 在与所述检索目标时间对应的倒排块中获取在所述目标时间分段中的数据分 布信息;
趋势图生成模块,被配置为根据在所述目标时间分段中的数据分布信息生 成数据分布趋势图。
8、 如权利要求 6所述的实时检索装置, 所述模块组还包括:
参考目标时间获耳 5^莫块,被配置于所述实时检索请求中的检索目标时间超 过预设时间范围时, 获取参考检索目标时间和参考目标时间分段; 其中, 所述 对应的倒排块;所述数据分布获取模块根据所述检索关键词以及所述参考目标 时间分段在与所述参考检索目标时间对应的倒排块中获取在所述参考目标时 间分段中的数据分布信息;
估计模块, 被配置为根据所述在所述参考目标时间分段中的数据分布信 息, 估计所述实时检索请求中的检索目标时间的检索结果。
9、 如权利要求 6中所述的实时检索装置, 所述倒排索引模块包括: 分级数据库对应单元,被配置为通过数据倒排索引中的时间跳表将所述检 索目标时间对应到相应的分级数据库中,所述分级数据库为多个分别用于存储 不同时间段的倒排块的数据库; 取与所述检索目标时间对应的倒排块。
10、 如权利要求 6~9中任一项所述的实时检索装置, 还所述模块组包括: 逻辑判断模块,被配置为根据预设的逻辑判断规则所述实时检索请求中的 检索关键词是否为无效关键词;
若判断得到所述检索关键词不是无效关键词,则获取实时检索请求中的检 索关键词以及检索目标时间。
11、 一种实时检索服务器, 其特征在于, 包括如权利要求 6~10中任一项 所述的实时检索装置。
PCT/CN2013/080071 2012-11-05 2013-07-25 实时检索信息获取方法、装置及服务器 WO2014067298A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US14/702,344 US20150234883A1 (en) 2012-11-05 2015-05-01 Method and system for retrieving real-time information

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2012104347322 2012-11-05
CN201210434732.2A CN103793439B (zh) 2012-11-05 2012-11-05 一种实时检索信息获取方法、装置及服务器

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US14/702,344 Continuation US20150234883A1 (en) 2012-11-05 2015-05-01 Method and system for retrieving real-time information

Publications (1)

Publication Number Publication Date
WO2014067298A1 true WO2014067298A1 (zh) 2014-05-08

Family

ID=50626407

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2013/080071 WO2014067298A1 (zh) 2012-11-05 2013-07-25 实时检索信息获取方法、装置及服务器

Country Status (3)

Country Link
US (1) US20150234883A1 (zh)
CN (1) CN103793439B (zh)
WO (1) WO2014067298A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101496179B1 (ko) * 2013-05-24 2015-02-26 삼성에스디에스 주식회사 데이터 부재 태깅 기반의 정보 검색 시스템 및 방법
CN105956194A (zh) * 2016-06-18 2016-09-21 张阳康 一种电能网络数据的处理方法
CN106484817B (zh) * 2016-09-26 2020-06-26 广州致远电子有限公司 一种数据搜索方法及系统
CN108446288B (zh) * 2017-08-01 2023-10-17 北京四维新世纪信息技术有限公司 一种面向遥感瓦片数据的一次全覆盖检索方法
CN110516157B (zh) * 2019-08-30 2022-04-01 盈盛智创科技(广州)有限公司 一种文献检索方法、设备和存储介质
WO2021090374A1 (ja) * 2019-11-06 2021-05-14 三菱電機ビルテクノサービス株式会社 建物管理装置、建物管理システム及びプログラム
CN113779058B (zh) * 2020-10-16 2024-06-14 北京京东振世信息技术有限公司 获取业务数据的方法、装置、设备和计算机可读介质
CN114661666B (zh) * 2022-03-03 2023-01-24 北京城市网邻信息技术有限公司 数据搜索方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090319518A1 (en) * 2007-01-10 2009-12-24 Nick Koudas Method and system for information discovery and text analysis
CN101847161A (zh) * 2010-06-02 2010-09-29 苏州搜图网络技术有限公司 搜索网页的方法和建立数据库的方法
CN102194015A (zh) * 2011-06-30 2011-09-21 重庆新媒农信科技有限公司 检索信息热度统计方法
CN102426610A (zh) * 2012-01-13 2012-04-25 中国科学院计算技术研究所 微博搜索排名方法及微博搜索引擎

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8781989B2 (en) * 2008-01-14 2014-07-15 Aptima, Inc. Method and system to predict a data value
CN101604340B (zh) * 2009-07-20 2011-07-13 腾讯科技(深圳)有限公司 一种获得查询的时新性的方法
US20120137367A1 (en) * 2009-11-06 2012-05-31 Cataphora, Inc. Continuous anomaly detection based on behavior modeling and heterogeneous information analysis
US9275093B2 (en) * 2011-01-28 2016-03-01 Cisco Technology, Inc. Indexing sensor data
US20140358911A1 (en) * 2011-08-31 2014-12-04 University College Dublin, National Uniaversity of Ireland Search and discovery system
US8745014B2 (en) * 2011-10-19 2014-06-03 Pivotal Software, Inc. Time series data mapping into a key-value database
US10878042B2 (en) * 2012-08-17 2020-12-29 Twitter, Inc. Search infrastructure

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090319518A1 (en) * 2007-01-10 2009-12-24 Nick Koudas Method and system for information discovery and text analysis
CN101847161A (zh) * 2010-06-02 2010-09-29 苏州搜图网络技术有限公司 搜索网页的方法和建立数据库的方法
CN102194015A (zh) * 2011-06-30 2011-09-21 重庆新媒农信科技有限公司 检索信息热度统计方法
CN102426610A (zh) * 2012-01-13 2012-04-25 中国科学院计算技术研究所 微博搜索排名方法及微博搜索引擎

Also Published As

Publication number Publication date
CN103793439B (zh) 2019-01-15
US20150234883A1 (en) 2015-08-20
CN103793439A (zh) 2014-05-14

Similar Documents

Publication Publication Date Title
WO2014067298A1 (zh) 实时检索信息获取方法、装置及服务器
US10397359B2 (en) Streaming media cache for media streaming service
US11580168B2 (en) Method and system for providing context based query suggestions
US9311406B2 (en) Discovering trending content of a domain
CN105981011B (zh) 趋势响应管理
WO2021003921A1 (zh) 数据处理方法及终端设备
CN106469018B (zh) 分布式存储系统的负载监控方法及设备
US9135307B1 (en) Selectively generating alternative queries
WO2022057739A1 (zh) 数据分区存储方法、装置及系统
JP2013535065A (ja) コンテンツアイテムヒストグラムを用いた流行のコンテンツアイテムの識別
US9378235B2 (en) Management of updates in a database system
US11347815B2 (en) Method and system for generating an offline search engine result page
US20190005101A1 (en) Method and apparatus for accessing time series data in memory
US20220358178A1 (en) Data query method, electronic device, and storage medium
KR20190022761A (ko) 검색 캐시 업데이트 방법 및 장치
CN104951503B (zh) 一种新鲜度敏感的大数据概要信息维护及聚合值查询方法
US9229968B2 (en) Management of searches in a database system
CN103646034A (zh) 一种基于内容可信的Web搜索引擎系统及搜索方法
US10262035B2 (en) Estimating data
CN108984615B (zh) 一种数据查询方法和系统、存储介质
JP5538459B2 (ja) 情報処理装置及び方法
WO2021143199A1 (zh) 日志查询方法、装置、计算机设备和存储介质
RU2790033C2 (ru) Система и способ для формирования обучающего набора для алгоритма машинного обучения
US20150046441A1 (en) Return of orthogonal dimensions in search to encourage user exploration
CN115686376A (zh) 一种数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13850090

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205N DATED 23.09.2015)

122 Ep: pct application non-entry in european phase

Ref document number: 13850090

Country of ref document: EP

Kind code of ref document: A1