WO2010083698A1 - 一种深层网移动搜索方法、服务器及系统 - Google Patents

一种深层网移动搜索方法、服务器及系统 Download PDF

Info

Publication number
WO2010083698A1
WO2010083698A1 PCT/CN2009/075158 CN2009075158W WO2010083698A1 WO 2010083698 A1 WO2010083698 A1 WO 2010083698A1 CN 2009075158 W CN2009075158 W CN 2009075158W WO 2010083698 A1 WO2010083698 A1 WO 2010083698A1
Authority
WO
WIPO (PCT)
Prior art keywords
search engine
search
member search
search request
engine
Prior art date
Application number
PCT/CN2009/075158
Other languages
English (en)
French (fr)
Inventor
王玮
董晓艺
顾翀
胡汉强
张飞
孟卫一
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Publication of WO2010083698A1 publication Critical patent/WO2010083698A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Definitions

  • the invention relates to a Chinese patent application filed on January 24, 2009, with the application number of 200910004311. 4, the invention name is "a deep network mobile search method, server and system" Priority is hereby incorporated by reference in its entirety.
  • the invention relates to a mobile search technology, in particular to a deep web mobile search technology, and in particular to a deep network mobile search method, server and system. Background technique
  • Deep Web has gained more and more research and attention.
  • Deep Web also known as hidden web, dark web; invisible web, invisible web
  • the Surface Web which usually refers to static content on a web page.
  • Ordinary web crawlers of existing search engines can only crawl static Surface Web content, and the content of Deep Web needs to use a dedicated crawler or special processing.
  • Deep Web contains about 900 billion web pages, and the current largest search engine can crawl about 20 billion pages including Deep Web and Surface Web. A large amount of high quality Deep Web content is not effectively searched and accessed.
  • Deep Web access methods include: Crawling content access methods, which use the dedicated Deep Web crawler to crawl Deep Web content, store the obtained content to the search server, and analyze and index the content data. deal with.
  • the disadvantages of this access method are: 1) Since Deep Web content data is not obtained through real-time access to the form, the content data is periodically fetched from the form, and the captured content data is stored in the search server, so the content data The freshness is not high; 2) large-scale storage is required because large-scale storage space is required to store the crawled content data, and a large index library is needed to store and maintain the index of the content data. space.
  • the Deep Web access method also includes: Integrated search access method, which integrates several professional domain databases to search and provides a unified search portal to users.
  • Integrated search access method which integrates several professional domain databases to search and provides a unified search portal to users.
  • the disadvantage of this access method is: You need to specify the target database of the search when searching, and only a small number of designated databases can be integrated. Summary of the invention
  • Embodiments of the present invention provide a deep network mobile search method, server, and system for integration
  • the Deep Web member search engine implements a representative of the Deep web member search engine.
  • the Deep Web search server is based on the representative provided by the Deep Web member search engine (representative, which can be the statistics of the content or address of the Deep Web member search engine).
  • the appropriate Deep Web member 1 engine performs Deep Web search.
  • a deep network mobile search method comprising the steps of: obtaining a member search engine representative of a deep network Deep Web member search engine; receiving a search request sent by the client, and requesting from the search Obtaining search request information; calculating a matching degree between the search request and the member search engine according to the search request information and the member search engine representative, and selecting a member search engine from the set of the member search engines to perform content data search according to the matching degree;
  • the searched content data is sent to the client.
  • a deep network mobile search server comprising: a representative value obtaining unit, configured to acquire a member search engine representative of a Deep Web member search engine; and a search request receiving unit, configured to receive the client a search request sent, and obtaining search request information from the search request; a member engine selection unit, configured to calculate a matching degree between the search request and the member search engine according to the search request information and the member search engine representative, according to the matching degree
  • the member search engine selects a member search engine for content data search; the search result output unit is configured to send the searched content data to the client.
  • a deep network mobile search system comprising: a member search engine and a search server; the search server, configured to acquire a member of a Deep Web member search engine, a search engine representative, and a receiving client send Search request, and obtain search request information from the search request; calculate the matching degree of the search request and the member search engine according to the search request information and the member search engine representative, and select from the set of the member search engine according to the matching degree
  • the member search engine performs content data search; and sends the searched content data to the client.
  • a deep network mobile search method comprising the steps of: obtaining a member search engine representative of a Deep Web member search engine, the member search engine representing member search engine content attribute data; receiving a search request sent by the client, and obtaining search request information from the search request; calculating a matching degree between the search request and the member search engine according to the search request information and the member search engine content attribute data, and searching from the member according to the matching degree
  • the member search engine is selected in the collection of the engine to perform content data search; the searched content data is sent to the client.
  • a deep network mobile search method comprising the steps of: obtaining a member search engine representative of a Deep Web member search engine, the member search engine representing an address served by a member search engine; Receiving a search request sent by the client, and obtaining address information from the search request; calculating a matching degree between the search request and the member search engine according to the address information of the search request and an address served by the member search engine, according to the matching degree
  • the member search engine selects a member to search for the content data search; and sends the searched content data to the client.
  • the embodiment of the invention implements an automatic selection search of the Deep Web member search engine, and avoids specifying a member search engine when searching. And by extracting the representation of member search engines, the number of large-scale Deep Web member search engines is integrated to enable access to large Deep Web resources. Real-time search of Deep Web member search engines is implemented without the need for large-scale storage and index databases to store crawled Deep Web member search engine data.
  • FIG. 1 is a flowchart of a deep network mobile search method according to an embodiment of the present invention
  • FIG. 2A is a mapping diagram of a member search engine category and category information according to an embodiment of the present invention
  • FIG. 2B is a mapping diagram of a search request category and category information according to an embodiment of the present invention
  • FIG. 3 is a schematic diagram of a category search directory tree according to an embodiment of the present invention.
  • FIG. 4 is a structural block diagram of a deep network mobile search server according to an embodiment of the present invention.
  • FIG. 5 is a structural block diagram of a member search engine selection unit of a search server according to an embodiment of the present invention
  • FIG. 6 is a structural block diagram of a deep network mobile search system according to an embodiment of the present invention
  • FIG. 7 is a structural block diagram of a search server in a search system according to an embodiment of the present invention.
  • FIG. 8A is a mapping diagram of a member search engine and category and address information according to an embodiment of the present invention
  • FIG. 8B is a mapping diagram of a search request and category and address information according to an embodiment of the present invention
  • FIG. 9 is a category and address information according to an embodiment of the present invention. Search the directory tree diagram;
  • FIG. 10 is a flowchart of an attribute-based deep network mobile search method according to an embodiment of the present invention.
  • FIG. 11 is a flowchart of a deep network mobile search method based on address information according to an embodiment of the present invention. detailed description
  • the deep network mobile search method of the embodiment of the present invention includes the following steps: acquiring a member search engine representative of a Deep Web member search engine (step S101); receiving a search request sent by the client And obtaining search request information from the search request (step S102); calculating a matching degree between the search request and the member search engine according to the search request information and the member search engine representative, and collecting the search engine from the member according to the matching degree
  • the member search engine is selected to perform content data search (step S103); the searched content data is sent to the client (step S104).
  • the step S101 and the step S102 can be exchanged.
  • a member search engine representative of the member search engine is obtained by the search server, and the member search engine representative includes a member search engine category, a member search engine content attribute, and an address served by the member search engine; wherein, the member search engine representative member search engine content Attributes are statistical data about the content of a member's search engine, known as member search engine content attribute data, or member search engine content attribute representation.
  • the search server receives the search request sent by the client, and the search request information includes: a category of the search request information, an attribute of the search request information, and address information included in the search request, and the search request information is obtained from the search request; and the search request information is The member search engine representative makes a match.
  • the directory tree may be searched for matching according to the category information, and the member search engines S1, S2, S3, and S4 are mapped to a group of category information, the group category.
  • the information includes: category 100, category 200, category 301, and category 302.
  • the category information in the search request Q1 is the category 100.
  • a category information search directory tree is created (the search directory tree can be constructed according to a classification method such as the Chinese map classification method).
  • the member search engines S1, S2, S3, and S4 are mapped to the corresponding category information nodes in the category information search directory tree, and Q1 is also mapped to the corresponding category information nodes in the category information search directory tree. It is calculated whether the category of Q1 coincides with the category of Sl, S2, S3 or S4. If it is coincident, the matching degree is 1, otherwise the matching degree is 0. From member search engine collections Sl, S2, S3 and S4 The content data search is performed by selecting S1 with a matching degree of 1.
  • Searching the directory tree according to the category information shown in FIG. 3 may be promoted by mapping the member search engine SE to one or more nodes of the category information search directory tree according to the category of the content included in the Deep Web member search engine, and The path from the node to the leaf node is denoted as du s), and s represents the node where the member search is mapped to the category information search directory tree.
  • the category information of the search request may be obtained from the keyword input by the user, or the category selected by the user in the advanced search may be used as the category information of the search request, and the category information of the search request Q may be mapped to the category information search directory tree.
  • Node the path from the root node to the node is denoted as d ir (q), where q represents the node where the search request is mapped to the category search directory tree.
  • dir(s) is a substring of dir(q), that is, the category of the member search engine contains not only the category of the search request but also other categories
  • the methods for calculating the matching degree sim Q,SE; include:
  • the node on the search directory tree is at the n layer, and the member search engine maps to the category information.
  • the node on the search directory is at the m layer,
  • k, k is the number of unmatched directory layers.
  • the formula for calculating the matching degree is:
  • the Deep Web member search engine is automatically selected and searched by extracting the category of the Deep Web member search engine, thereby avoiding the member search engine specified during the search. And by extracting the categories of member search engines, the number of large-scale Deep Web member search engines is integrated to enable access to large Deep Web resources. Real-time search of Deep Web member search engines is implemented without the need for large-scale storage and indexing databases to store crawled Deep Web member search engine data.
  • the deep network mobile search server of the embodiment of the present invention includes: a representative value obtaining unit 101 for acquiring a member search engine representative of a Deep Web member search engine; and a search request receiving unit 102 for receiving a search sent by the client.
  • the member engine selection unit 103 is configured to calculate a matching degree between the search request and the member search engine according to the search request information and the member search engine representative, and search from the member according to the matching degree.
  • a member search engine is selected from the set of engines for content data search;
  • the search result output unit 104 is configured to send the searched content data to the client.
  • the member search engine selecting unit 103 includes: a category matching module 1031 for matching a member search engine category with a search request category.
  • the category mapping module 1034 is configured to respectively map the search request category and the member search engine category with a set of category information; the category matching module 1031 matches the member search engine category with the search request category according to the mapping relationship.
  • the member engine selection unit 103 includes: an attribute matching module 1032, configured to calculate a matching degree between the search request and the member search engine according to the attribute of the search request information and the member search engine content attribute.
  • a member search engine content attribute is one of: a text attribute or a numeric attribute or an enumerated attribute.
  • the attribute matching module 1032 performs matching based on the text attribute representative of the member search engine:
  • the matching degree of the search request to the member search engine is calculated as follows:
  • Sim(Q, SE) max ⁇ qw(t) * mnw(t, SE)*gidfw(t) 1 1 in Q ⁇ ;
  • the text attribute of the Deep Web member search engine is extracted, and the automatic selection search of the Deep Web member search engine is realized, thereby avoiding the designated member search engine during the search.
  • the number of large-scale Deep Web member search engines is integrated to enable access to large Deep Web resources. Real-time search of Deep Web member search engines is implemented without the need for large-scale storage and indexing databases to store crawled Deep Web member search engine data.
  • Metasearch Engine is an engine that calls other independent search engines.
  • the meta search engine is the integration, invocation, control and optimization of multiple independent search engines.
  • a relative meta search engine, an independent search engine that can be utilized is called a member search engine (Member En g me).
  • the deep network mobile search system of the embodiment of the present invention includes: a Surface Web member search engine 401 and a Deep web member search engine 402, a search server 500, and a client 600, and the search server 500 and the Surface web member search engine respectively.
  • the 401 is connected to the Deep web member search engine 402 and the client 600.
  • the member search engine includes the Surface web member search and the Deep web member search engine.
  • the search server 500 internally automatically schedules and selects the member search engine in a manner represented by the member search engine.
  • the client 600 can be a fixed network terminal such as a desktop computer or a portable computer. It can be a mobile network terminal such as a mobile phone or a PDA.
  • the search server 500 includes a member search engine representative for acquiring a Deep Web member search engine by the representative value acquisition unit 101; and a search request receiving unit 102.
  • the member engine selection unit 103 calculates a matching degree between the search request and the member search engine according to the search request information and the member search engine representative, according to the The matching degree selects a member search engine from the set of the member search engines to perform content data search;
  • the search result output unit 104 is configured to send the searched content data to the client.
  • the search request receiving unit 102 receives the search request sent by the client, analyzes the search request, and parses the category of the search request, the search keyword and the attribute value, the address information included in the search, and the like.
  • the member search engine selecting unit 103 performs engine selection with the member search engine representative based on the content of the search request, and selects the member search engine having the highest matching degree with the search request.
  • the search server 500 further includes a member search engine management module 501.
  • the member search engine management module 501 is connected to the representative value acquisition unit 101 and is responsible for managing the member search engine, performing registration, update, deletion, and the like of the member search engine, and is responsible for statistics and maintenance. A representative of a member search engine.
  • the search result output unit 104 includes a member search engine interface adaptation module 502 and a result adaptation module 503.
  • the member search engine interface adaptation module 502 is responsible for interface adaptation and request delivery and result return between the search server and the member search engine.
  • the module sends a search request to the member search engine selected by the member search engine selection module and obtains the search result returned by the member search engine and transmits it to the result adaptation module 503.
  • the result adaptation module 503 adapts the search results to the client 600 according to the type of the client 600, and outputs the result to the client 600.
  • the mobile search platform integrates the search engines Sl, S2, S3, S4, S5, and the mapping relationship between the member search engines and the searched content categories and service areas is as shown in FIG. 8A; the client search requests Q1, Q2, Q3, Q4, Q5
  • the mapping relationship with category and address information is shown in Figure 8B:
  • the key content of the client sending the search request Q1 is: "Today's News”
  • the search server performs query classification according to the search request Q1, determines that the category of the search request Q1 is "news" category, and maps to the news node.
  • the member search engine selection is performed:
  • the search server calculates the matching degree between each member search engine and the query request to obtain the result of the member search engine selection, and selects S2 and S3.
  • the mobile search platform first establishes a geographical location tree, and maps each member search engine to the node of the tree.
  • the address served by the member search engine refers to the location served by the member search engine, that is, the region (e.g., according to the administrative division of the region).
  • the user searches for the requested content as "Shenzhen Restaurant.”
  • the server selects the engine according to the scope of the member search engine service, the search request is also mapped to the "Shenzhen" node on the geographical location tree, and both S4 and S5 are selected to meet the requirements of the search request.
  • the search server is based on a numeric attribute price of $15, which is represented by a numeric attribute representative for member search engine selection.
  • the number of values ci of the numeric attribute of each member search engine on each value interval [ai, bi] is expressed as [ai, bi, ci].
  • ai, bi are a range of values for a numeric attribute.
  • Ci is the number of values that the member search engine takes on the interval [aUn]; calculates the number of all possible values of the member search engine in the interval [ai, W], the value of in is the value of ai, the value of bi, and The accuracy and unit calculation of ai and bi are obtained.
  • the search engine S4 which has a large search matching value, is considered to be a better search engine, and sends a search request to it.
  • the strategy that the search server uses the member search engine selection method can be formulated by itself, in this embodiment.
  • the strategy adopted by the server is to first filter the member search engine by using the category of the member search engine, and then use the address range served by the member search engine to filter the member search engine, and finally calculate the query request and the engine through the content of the member search engine. Match the best engine to send a search request to it.
  • the embodiment of the present invention extracts the category, attribute or address information representative of the Deep Web member search engine, and uses the representative to calculate the similarity between the query request and the member search engine representative, as the matching degree between the query request and the member search engine, and automatically selects the member search engine.
  • the way to implement the automatic selection search of the Deep Web member search engine avoids the specified member search engine when searching.
  • the number of large-scale Deep Web member search engines is integrated to enable access to the vast Deep Web resources. Real-time search of the Deep Web member search engine is implemented without the need for large-scale storage and index databases to store crawled Deep Web member search engine data.
  • the deep network mobile search method of the embodiment of the present invention includes the following steps: acquiring a member search engine representative of a Deep Web member search engine, where the member search engine is represented as member search engine content attribute data (step S201) Receiving a search request sent by the client, and obtaining search request information from the search request (step S202); calculating a matching degree between the search request and the member search engine according to the search request information and the member search engine content attribute data, according to The matching degree selects a member search engine from the set of the member search engines to perform content data search (step S203); and the searched content data is sent to the client (step S204).
  • the member engine selection unit 103 includes: an attribute matching module 1032, configured to calculate a matching degree between the search request and the member search engine according to the attribute of the search request information and the member search engine content attribute.
  • a member search engine content attribute is one of: a text attribute or a numeric attribute or an enumerated attribute.
  • the attribute matching module 1032 performs matching based on the numeric attribute representative of the member search engine:
  • the Deep Web member search engine will contain a numeric attribute field. For example, in the price field on the shopping site, the user can submit a price value to search in the search request.
  • the attribute matching module 1032 represents the following steps for selecting a member search engine according to the numeric attribute of the member search engine:
  • A1 Count the value of the numeric attribute of each member search engine on each value interval [ai, bi]
  • the quantity ci expressed as [ai, bi, ci].
  • ai, bi is a value interval of a numeric attribute.
  • Ci is the number of values that the member search engine takes on the interval [ai, bi]; calculates the number of all possible values of the member search engine in the interval [ai, bi] ni, the value of ni is the value of ai, the value of bi , and the accuracy and unit calculation of ai and bi are obtained.
  • the numeric attribute representation of the member search engine is expressed as: [ ⁇ , 3 ⁇ 4 ⁇ ].
  • the steps for calculating the matching degree of the search request to the member search engine are as follows:
  • the attribute matching module 1032 performs matching based on the enumerated attribute representative of the member search engine:
  • the Deep Web member search engine will have an enumerated domain. For example, in the salary request interval field on the job search website, the user can submit an enumerated value search in the search request.
  • the attribute matching module 1032 performs matching based on the enumerated attribute representative of the member search engine to select the member search engine.
  • the steps for selecting a member search engine based on the enumerated attributes of the member search engine are as follows:
  • Calculating the matching degree of the search request to the member search engine according to the enumerated attribute representative includes: Method 1:
  • the frequency of the local value of the member search engine corresponding to the global ⁇ , ⁇ .... ⁇ , that is, the number of records in the enumeration type attribute of all records of the member search engine is the value of the local value, For df(vl, SE), df(v2, SE)...df(vk, SE).
  • max ⁇ matchin g -degree(S)*r( g v, S)/k ⁇ is the largest of the values obtained by calculating matching-degree(SE)*r(gv, SE)/k for all member search engines. value.
  • the embodiment of the present invention implements the automatic selection search of the Deep Web member search engine by extracting the representation of the numeric attribute or the enumeration type attribute of the Deep Web member search engine, thereby avoiding the member search engine specified during the search. And by using the representative value to calculate the similarity between the query request and the member search engine representative, as the query request and the member search engine matching degree, the method of automatically selecting the member search engine integrates the number of large-scale Deep Web member search engines, making the huge Deep Web resources can be accessed. Real-time search of Deep Web member search engines is implemented without the need for large-scale storage and index databases to store crawled Deep Web member search engine data.
  • the deep network mobile search method in the embodiment of the present invention includes the following steps: obtaining a member search engine representative of a Deep Web member search engine, where the member search engine represents an address served by a member search engine (step S301) Receiving a search request sent by the client, and obtaining address information from the search request (step S302); calculating a match between the search request and the member search engine according to the address information of the search request and the address served by the member search engine Degrees, selecting a member search engine from the set of member search engines to perform content data search according to the matching degree (step S303); and transmitting the searched content data to the client (step S304).
  • the member search engine selecting unit 103 includes: an address matching module 1033, configured to calculate a matching degree of the search request and the member search engine according to the address information included in the search request and the address served by the member search engine.
  • the member search engine selection unit 103 includes: an address mapping module 1035 configured to map the address information included in the search request and the address served by the member search engine to a group of address information respectively; the address matching module 1033 calculates the mapping relationship according to the mapping relationship. The degree to which this search request matches the member search engine.
  • a location search directory tree For example, a geographic directory tree can be formed according to the administrative division of the area.
  • the search request is mapped to an address node on the geographical location tree, and the path from the root node to the leaf node is recorded as: loc q), q table A node that maps the search request to the location search directory tree.
  • the member search engine SE is mapped to one or more nodes on the geographical directory tree according to the address range served by the member search engine, and the path of the nodes from the root node to the leaf node is denoted as loc(s:).
  • the address loc(s;> of the user search request is matched, and the member search engine is selected as follows:
  • loc(q;> loc , that is, the address of the search request and the address range served by the member search engine are the same, then the member search engine should be selected, and the query request matching degree sim to the member search engine ( Q, SE) is 1.
  • loc ⁇ s;) is a substring of loc q), that is, the address range served by the search engine includes not only the address of the query request but also other areas, the matching degree of the search request to the search engine of the member is calculated.
  • SE) methods are:
  • the population of the nodes on the geolocation tree to which the search request is mapped is populated q) and the population of the nodes on the geolocation tree to which the member search arrow is mapped is the same as population(s), then it should be selected
  • the member search engine, the query request matching sim(Q,SE) population(q) I population(s)-1 to the member search engine.
  • subject-related entities such as the number of restaurants
  • the number of entities of the node on the geolocation tree to which the search request is mapped is the same as the subject s) of the nodes on the geolocation tree to which the member search engine is mapped, then it should be selected
  • the member search engine, the query request matching degree sim(Q,SE) subject (q) I subject(s)-1 to the member search engine.
  • Method 4 Map the search request to the node on the geographical directory tree according to the address information in the search request. Calculated according to the number of layers (k) in the middle of the address node, that is, if the node on the geographical location tree mapped to the search request is at the n layer, the node on the geographical directory tree to which the member search engine is mapped is at the m layer,
  • an automatic selection search of a Deep Web member search engine is implemented by extracting an address information representative of a Deep Web member search engine, thereby avoiding a member search engine specified during the search. And by using the representative to calculate the similarity between the query request and the member search engine representative, as the query request and the member search engine matching degree, the method of automatically selecting the member search engine integrates the number of large-scale Deep Web member search engines, making the huge Deep Web resources can be accessed.
  • a real-time search of the Deep Web member search engine is implemented without the need for large-scale storage space and an index database to store the crawled Deep Web member search engine data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Description

一种深层网移动搜索方法、 服务器及系统 本申请要求了 2009年 1月 24日递交的申请号为 200910004311. 4,发明名 称为 "一种深层网移动搜索方法、 服务器及系统" 的中国专利申请的优先权, 其全部内容通过引用结合在本申请中。 技术领域
本发明关于移动搜索技术,特别是关于深层网(Deep Web)移动搜索技术, 具体的讲是一种深层网移动搜索方法、 服务器及系统。 背景技术
目前, Deep Web得到了越来越多的研究和关注, Deep Web (深层网, 又 称 hidden web, 暗网; invisible web, 不可见网) 指的是网络上隐藏在 HTML 表单之后的内容。与 Deep Web相对应的是表面网( Surface Web ), Surface Web 通常指网页上的静态内容。 现有搜索引擎的普通网页爬虫只能爬取静态的 Surface Web内容,对 Deep Web的内容需要用专用的爬虫或者进行专门的处理。
在实现本发明的过程中发明人发现, Deep Web中大约包含 9000亿个网页, 而目前最大的搜索引擎能够爬取的包括 Deep Web和 Surface Web在内的所有内 容大约为 200亿个页面, 可见大量的高质量的 Deep Web内容得不到有效的搜 索和访问。
Deep Web访问方式包括: 爬取内容的访问方式, 该访问方式通过专用的 Deep Web爬取工具爬取 Deep Web的内容, 将获得的内容存储到搜索服务器, 并对内容数据进行分析和建立索引等处理。 这种访问方式的缺陷是: 1 ) 由于 Deep Web 内容数据不是通过实时访问表单得到的, 而是定期从表单中抓取内 容数据, 再将抓取的内容数据存储到搜索服务器中, 所以内容数据的时新性 (freshness)不高; 2)由于需要大规模的存储空间来存储爬取过来的内容数据, 并需要庞大的索引库来存储和维护这些内容数据的索引,所以需要大规模的存 储空间。
Deep Web访问方式还包括: 整合搜索访问方式, 该访问方式通过整合几 个专业领域数据库进行搜索, 提供统一的搜索门户给用户。 这种访问方式的缺 陷是: 在检索时需要指定搜索的目标数据库, 仅能集成少量的指定数据库。 发明内容
本发明实施例提供了一种深层网移动搜索方法、 服务器及系统, 用以集成
Deep Web成员搜索引擎, 实现对 Deep web成员搜索引擎的代表, Deep Web搜 索服务器基于 Deep Web成员搜索引擎提供的代表 (representative, 可以为对 Deep Web成员搜索引擎的内容或地址的统计数据), 选择合适的 Deep Web成员 弓 1擎进行 Deep Web搜索。
根据本发明的一方面, 提供一种深层网移动搜索方法, 该方法包括以下歩 骤: 获取深层网 Deep Web成员搜索引擎的成员搜索引擎代表; 接收客户端发 送的搜索请求, 并从该搜索请求中获取搜索请求信息; 根据该搜索请求信息与 成员搜索引擎代表计算该搜索请求与成员搜索引擎的匹配度, 根据该匹配度从 该成员搜索引擎的集合中选择成员搜索引擎进行内容数据搜索; 将搜索到的内 容数据发送给该客户端。
根据本发明的另一方面,提供一种深层网移动搜索服务器,该服务器包括: 代表值获取单元, 用于获取 Deep Web成员搜索引擎的成员搜索引擎代表; 搜 索请求接收单元, 用于接收客户端发送的搜索请求, 并从该搜索请求中获取搜 索请求信息; 成员引擎选择单元, 用于根据该搜索请求信息与成员搜索引擎代 表计算该搜索请求与成员搜索引擎的匹配度, 根据该匹配度从该成员搜索引擎 的集合中选择成员搜索引擎进行内容数据搜索; 搜索结果输出单元, 用于将搜 索到的内容数据发送给该客户端。
根据本发明的另一方面, 提供一种深层网移动搜索系统, 该系统包括: 成 员搜索引擎和搜索服务器; 该搜索服务器, 用于获取 Deep Web成员搜索引擎 的成员搜索引擎代表和接收客户端发送的搜索请求, 并从该搜索请求中获取搜 索请求信息; 根据该搜索请求信息与成员搜索引擎代表计算该搜索请求与成员 搜索引擎的匹配度, 根据该匹配度从该成员搜索引擎的集合中选择成员搜索引 擎进行内容数据搜索; 将搜索到的内容数据发送给该客户端。
根据本发明的另一方面, 提供一种深层网移动搜索方法, 该方法包括以下 歩骤: 获取 Deep Web成员搜索引擎的成员搜索引擎代表, 该成员搜索引擎代 表为成员搜索引擎内容属性数据; 接收客户端发送的搜索请求, 并从该搜索请 求中获取搜索请求信息; 根据该搜索请求信息与成员搜索引擎内容属性数据计 算该搜索请求与成员搜索引擎的匹配度, 根据该匹配度从该成员搜索引擎的集 合中选择成员搜索引擎进行内容数据搜索;将搜索到的内容数据发送给该客户端。 根据本发明的另一方面, 提供一种深层网移动搜索方法, 该方法包括以下 歩骤: 获取 Deep Web成员搜索引擎的成员搜索引擎代表, 该成员搜索引擎代 表为成员搜索引擎所服务的地址; 接收客户端发送的搜索请求, 并从该搜索请 求中获取地址信息; 根据该搜索请求的地址信息与成员搜索引擎所服务的地址 计算该搜索请求与成员搜索引擎的匹配度, 根据该匹配度从该成员搜索引擎的 集合中选择成员搜索弓 I擎进行内容数据搜索; 将搜索到的内容数据发送给该客 户端。
本发明实施例实现了 Deep Web成员搜索引擎的自动选择搜索, 避免了搜 索时指定成员搜索引擎。并通过抽取成员搜索引擎的代表的方式集成了大规模 的 Deep Web成员搜索引擎的数量,使庞大的 Deep Web资源能够得到访问。在 不需要大规模的存储空间和索引数据库来存储爬取的 Deep Web成员搜索引擎 数据的情况下, 实现 Deep Web成员搜索引擎的实时搜索。 附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案, 下面将对实施 例或现有技术描述中所需要使用的附图作简单地介绍, 显而易见地, 下面描述 中的附图仅仅是本发明的一些实施例, 对于本领域普通技术人员来讲, 在不付 出创造性劳动性的前提下, 还可以根据这些附图获得其他的附图。
图 1为本发明实施例深层网移动搜索方法流程图;
图 2A为本发明实施例成员搜索引擎类别与类别信息的映射关系图; 图 2B为本发明实施例搜索请求类别与类别信息的映射关系图;
图 3为本发明实施例类别搜索目录树示意图;
图 4为本发明实施例深层网移动搜索服务器结构框图;
图 5为本发明实施例搜索服务器的成员搜索引擎选择单元结构框图; 图 6为本发明实施例深层网移动搜索系统结构框图;
图 7为本发明实施例搜索系统中搜索服务器的结构框图;
图 8A为本发明实施例成员搜索引擎与类别和地址信息的映射关系图; 图 8B为本发明实施例搜索请求与类别和地址信息的映射关系图; 图 9为本发明实施例类别及地址信息搜索目录树示意图;
图 10为本发明实施例基于属性的深层网移动搜索方法流程图;
图 11为本发明实施例基于地址信息的深层网移动搜索方法流程图。 具体实施方式
下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进行清 楚、 完整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而不是 全部的实施例。 基于本发明中的实施例, 本领域普通技术人员在没有做出创造 性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。
实施例一
如图 1所示, 本发明实施例的深层网移动搜索方法, 所述的方法包括以下 歩骤: 获取 Deep Web成员搜索引擎的成员搜索引擎代表 (歩骤 S101 ); 接收 客户端发送的搜索请求, 并从该搜索请求中获取搜索请求信息 (歩骤 S102); 根据该搜索请求信息与成员搜索引擎代表计算该搜索请求与成员搜索引擎的 匹配度, 根据该匹配度从该成员搜索引擎的集合中选择成员搜索引擎进行内容 数据搜索 (歩骤 S103 ); 将搜索到的内容数据发送给该客户端 (歩骤 S104)。 其中, 歩骤 S101和歩骤 S102可以调换。
下面结合图 2A、 图 2B和图 3对本实施例进行详细说明。
由搜索服务器获取成员搜索引擎的成员搜索引擎代表, 成员搜索引擎代表 包括成员搜索引擎类别、 成员搜索引擎内容属性和成员搜索引擎所服务的地 址; 其中, 该成员搜索引擎代表中的成员搜索引擎内容属性是指对成员搜索引 擎的内容的统计数据, 即称之为成员搜索引擎内容属性数据、 或成员搜索引擎 内容属性代表。
搜索服务器接收客户端发送的搜索请求, 搜索请求信息包括: 搜索请求信 息的类别、 搜索请求信息的属性和搜索请求中包含的地址信息, 从搜索请求中 获取搜索请求信息; 并将搜索请求信息与该成员搜索引擎代表进行匹配。
如图 2A所示, 将搜索请求信息与成员搜索引擎代表进行匹配时, 可根据 类别信息搜索目录树进行匹配, 将成员搜索引擎 Sl、 S2、 S3 和 S4映射到一 组类别信息, 该组类别信息包括: 类别 100、 类别 200、 类别 301和类别 302。 如图 2B所示, 搜索请求 Q1中的类别信息为类别 100。
如图 3所示, 建立类别信息搜索目录树(该搜索目录树可根据中图分类法 等分类方法构建)。 将成员搜索引擎 Sl、 S2、 S3 和 S4映射到类别信息搜索目 录树中对应的类别信息节点, 将 Q1也映射到类别信息搜索目录树中对应的类 别信息节点。 计算 Q1的类别是否与 Sl、 S2、 S3 或 S4的类别是否重合, 如果 重合则匹配度为 1, 否则匹配度为 0。 从成员搜索引擎集合 Sl、 S2、 S3 和 S4 中选择匹配度为 1的 S1进行内容数据搜索。
根据图 3所示的类别信息搜索目录树,可以进行如下推广:根据 Deep Web 成员搜索引擎包含的内容的类别, 将成员搜索引擎 SE映射到类别信息搜索目 录树的一个或多个节点, 将根节点到叶节点的路径记为 du s), s表示成员搜索 弓 1擎映射到类别信息搜索目录树的节点。则成员搜索引擎的类别可表示为一个 路径的集合: SE={dir(s)}。
可以从用户搜索时输入的关键字中获取搜索请求的类别信息, 或者将用户 在高级搜索中选择的搜索类别作为搜索请求的类别信息,将搜索请求 Q的类别 信息映射到类别信息搜索目录树的节点,将根节点到该节点的路径记为 dir(q), q表示搜索请求映射到类别搜索目录树的节点。 则搜索请求的类别可表示为一 个路径: Q= dir(q:)。
根据 SE={dir(s)}和 Q= dir(q) 计算搜索请求与成员搜索引擎的匹配度, 其 中包括:
( 1 )如果成员搜索引擎类别和搜索请求类别没有重合的内容, g卩 dir(s)和 dir q)有公共的子串, 但 dir q)不是 dir s)的子串, dir s)也不是 dir q)的子串, 也 即搜索请求和成员搜索引擎是不同的类别,则匹配度 sim(Q,SE)为 0。不选择该 成员搜索引擎。
(2 ) 如果 dir(q)是 du s)的子串, 即成员搜索引擎的类别是搜索请求类别 下的类别, 贝 ij sim(Q,SE)为 1。 选择该成员搜索引擎进行内容数据搜索。
( 3 )如果 dir(s) = dir(q) , 即成员搜索引擎的类别和搜索请求类别是相同的 类别, 贝 ij sim(Q,SE)为 1。 选择该成员搜索引擎进行内容数据搜索。
(4 ) 如果 dir(s)是 dir(q)的子串, 即成员搜索引擎的类别不仅包含搜索请 求的类别还包含其它类别, 则计算匹配度 sim Q,SE;)的方法包括:
Al、 计算成员搜索引擎的类别在搜索请求映射到的类别节点的记录数占 成员搜索引擎映射到的类别节点总记录数的比率作为相似度 sim(Q,SE:)。
A2、 如果搜索请求映射到类别信息搜索目录树上的节点在 n层, 成员搜 索引擎映射到类别信息搜索目录上的节点在 m层, |n-m|=k, k为未匹配到的目 录层数, 则计算匹配度的公式为:
sim(Q,SE) = a k (0 < a < 1) 。
根据搜索请求与成员搜索引擎的匹配度 sim(Q,SE),从 Surface Web成员搜 索引擎和 Deep Web成员搜索引擎的集合中选择出匹配度较高的成员搜索引擎 进行内容数据搜索 (如: sim(Q,SE) = l )。
本发明实施例通过抽取 Deep Web成员搜索引擎的类别, 实现 Deep Web 成员搜索引擎的自动选择搜索, 避免了搜索时指定成员搜索引擎。 并通过抽取 成员搜索引擎的类别的方式集成了大规模的 Deep Web成员搜索引擎的数量, 使庞大的 Deep Web资源能够得到访问。 在不需要大规模的存储空间和索引数 据库来存储爬取的 Deep Web成员搜索引擎数据的情况下,实现 Deep Web成员 搜索引擎的实时搜索。
实施例二
如图 4所示, 本发明实施例的深层网移动搜索服务器包括: 代表值获取单 元 101用于获取 Deep Web成员搜索引擎的成员搜索引擎代表; 搜索请求接收 单元 102用于接收客户端发送的搜索请求, 并从该搜索请求中获取搜索请求信 息; 成员引擎选择单元 103用于根据该搜索请求信息与成员搜索引擎代表计算 该搜索请求与成员搜索引擎的匹配度, 根据该匹配度从该成员搜索引擎的集合 中选择成员搜索引擎进行内容数据搜索; 搜索结果输出单元 104用于将搜索到 的内容数据发送给该客户端。
如图 5所示, 成员搜索引擎选择单元 103包括: 类别匹配模块 1031用于 将成员搜索引擎类别与搜索请求类别进行匹配。 类别映射模块 1034用于将该 搜索请求类别和成员搜索引擎类别分别与一组类别信息建立映射关系; 类别匹 配模块 1031 根据该映射关系对该成员搜索引擎类别与该搜索请求类别进行匹 配。 将成员搜索引擎类别与搜索请求类别进行匹配包括: 根据成员搜索引擎的 类别 SE={dir(s)}将用户搜索请求的类别 dir(q)与其进行匹配, 进行成员搜索引 擎的选择。
如图 5所示, 成员引擎选择单元 103包括: 属性匹配模块 1032用于根据 该搜索请求信息的属性与成员搜索引擎内容属性计算该搜索请求与成员搜索 引擎的匹配度。 成员搜索引擎内容属性是指: 文本属性或数值型属性或枚举型 属性中的一种。
下面以文本属性为例, 对属性匹配模块 1032将成员搜索引擎文本属性与 搜索请求文本属性进行匹配进行说明:
属性匹配模块 1032根据成员搜索引擎的文本属性代表进行匹配:
Al、 统计词典中的每个词 T 在成员搜索引擎的所有文档中的最大归一化 权重 mnw(t, SE)=TF*IDF (TF为文档中包含词 T的数量, IDF为 T在该成员搜 索引擎中的文档频率的倒数), 统计 τ在所有成员搜索引擎文档中的频率之和 的倒数 gidfw( 。
A2、根据成员搜索引擎的文本属性代表计算搜索请求对成员搜索引擎的匹 配度如下:
对搜索请求中的词 t, 计算 t在搜索请求中的归一化权重 qw t);
查找 t 在成员搜索引擎中所有文档中的最大归一化权重 mnw(t, SE)=TF*IDF ( TF为文档中包含词 T的数量, IDF为 Τ在该成员搜索引擎中的 文档频率的倒数);
查找 t在所有成员搜索引擎中的文档频率之和的倒数 gidfw(t) ;
计算搜索请求与成员搜索引擎的相似度:
sim(Q, SE) = max { qw(t) * mnw(t, SE)*gidfw(t) 1 1 in Q};
选择 sim(Q, SE)值较大的成员搜索引擎进行内容数据搜索。
本发明实施例通过抽取 Deep Web成员搜索引擎的文本属性, 实现 Deep Web成员搜索引擎的自动选择搜索, 避免了搜索时指定成员搜索引擎。 并通过 抽取成员搜索引擎的类别的方式集成了大规模的 Deep Web成员搜索引擎的数 量, 使庞大的 Deep Web资源能够得到访问。 在不需要大规模的存储空间和索 引数据库来存储爬取的 Deep Web成员搜索引擎数据的情况下,实现 Deep Web 成员搜索引擎的实时搜索。
实施例三
元搜索引擎 (Metasearch Engine) , 是一种调用其它独立搜索引擎的引擎, 元搜索引擎就是对多个独立搜索引擎的整合、 调用、 控制和优化利用。 相对元 搜索引擎, 可被利用的独立搜索引擎称为成员搜索引擎 ( Member Engme)。
如图 6所示, 本发明实施例的深层网移动搜索系统包括: Surface Web成 员搜索引擎 401和 Deep web成员搜索引擎 402、搜索服务器 500和客户端 600, 搜索服务器 500分别与 Surface web成员搜索引擎 401和 Deep web成员搜索引 擎 402及客户端 600相连接。
本发明实施例是在元搜索架构下, 根据 Deep Web成员搜索引擎的代表和 客户搜索请求信息的匹配度, 实现自动选择成员搜索引擎进行搜索的方法。 成 员搜索引擎包括 Surface web成员搜索和 Deep web成员搜索引擎。
搜索服务器 500内部通过成员搜索弓 I擎代表的方式对成员搜索弓 I擎进行自 动调度和选择。 客户端 600可以是台式机电脑、 便携式电脑等固定网络终端也 可以是手机、 PDA等移动网络终端。
如图 7所示, 为本发明实施例的深层网移动搜索系统的构成, 其中: 搜索 服务器 500包括代表值获取单元 101用于获取 Deep Web成员搜索引擎的成员 搜索引擎代表; 搜索请求接收单元 102用于接收客户端发送的搜索请求, 并从 该搜索请求中获取搜索请求信息; 成员引擎选择单元 103根据该搜索请求信息 与成员搜索引擎代表计算该搜索请求与成员搜索引擎的匹配度, 根据该匹配度 从该成员搜索引擎的集合中选择成员搜索引擎进行内容数据搜索; 搜索结果输 出单元 104用于将搜索到的内容数据发送给该客户端。
搜索请求接收单元 102接收客户端发送的搜索请求,对搜索请求进行分析, 解析出搜索请求的类别、 搜索关键字及属性取值、 搜索中包含的地址信息等。 成员搜索引擎选择单元 103根据搜索请求的内容,用成员搜索引擎代表进行引 擎选择, 选择出与该搜索请求匹配度最高的成员搜索引擎。
搜索服务器 500还包括成员搜索引擎管理模块 501, 成员搜索引擎管理模 块 501与代表值获取单元 101相连接负责管理成员搜索引擎, 进行成员搜索引 擎的注册、 更新、 删除等操作, 并负责统计和维护成员搜索引擎的代表。
搜索结果输出单元 104包括成员搜索引擎接口适配模块 502和结果适配模 块 503。 成员搜索引擎接口适配模块 502负责搜索服务器和成员搜索引擎之间 的接口适配及请求发送和结果返回。该模块将搜索请求发送到成员搜索引擎选 择模块选出来的成员搜索引擎并获得成员搜索引擎返回的搜索结果传送给结 果适配模块 503。 结果适配模块 503将搜索结果进行加工整理排序之后根据客 户端 600的类型进行适配, 将结果输出给客户端 600。
下面结合图 8A、 图 8B和图 9对本实施例进行详细说明。
( 1 ) 根据成员搜索引擎类别进行成员搜索引擎选择
移动搜索平台集成搜索引擎 Sl、 S2、 S3、 S4、 S5, 其成员搜索引擎与搜 索的内容类别和服务地区的映射关系如图 8A所示;客户端搜索请求 Ql、 Q2, Q3、 Q4、 Q5与类别和地址信息的映射关系如图 8B所示:
客户端发送搜索请求 Q1的关键的内容为: "今日新闻", 则搜索服务器根 据搜索请求 Q1进行查询分类, 确定搜索请求 Q1 的类别为 "新闻"类别, 映 射到新闻节点。 根据各个搜索引擎映射到的节点的 dir (如图 9所示), 进行成 员搜索引擎选择:
sim(Ql, S1) = 0; sim(Ql, S2)= l ;
sim(Ql, S3)= l ;
sim(Ql, S4) = 0;
sim(Ql, S5) = 0;
搜索服务器计算各个成员搜索引擎与查询请求的匹配程度得出成员搜索 引擎选择的结果, 选中 S2和 S3。
(2) 根据成员搜索引擎所服务的地址范围进行成员搜索引擎选择 如图 9所示, 移动搜索平台首先建立一棵地理位置目录树, 将各个成员搜 索引擎映射到该树的节点上。
在本实施例中, 成员搜索引擎所服务的地址是指成员搜索引擎所服务的地 里位置, 即地域(如根据地区的行政区划划分)。假设用户搜索请求内容为"深 圳 餐馆"。 服务器根据成员搜索引擎服务的范围进行引擎选择时, 将搜索请求 也映射到地理位置目录树上的 "深圳"节点上, 选中 S4和 S5都符合搜索请求 的要求。
(3 ) 根据成员搜索引擎属性进行成员搜索引擎选择的方法
假设用户搜索请求 Q内容为 "深圳三明治价格: 15元"。
搜索服务器根据数值型的属性价格 15元, 通过数值型属性代表进行成员 搜索引擎选择。
统计每个成员搜索引擎的数值型属性在各个取值区间 [ai,bi]上的取值数量 ci, 表示为 [ai,bi,ci]。 其中 ai, bi为数值型属性的一个取值区间。 ci为成员搜索 引擎在区间 [aUn]上取值的数量; 计算成员搜索引擎在区间 [ai,W]上的所有可能 取值的数量 m, in 的值由 ai的值、 bi的值、以及 ai和 bi的精度及单位计算获得。
根据数值型属性代表计算搜索请求对成员搜索引擎的匹配程度的歩骤如下: 假如在 S4的代表中, 三明治取值区间为 [10,20]的内容有 2000个, 此时 ai = 10, bi=20, ci=2000。 在本实施例中搜索服务器计算 ni 的算法为 ni=bi-ai, 即: ni=20-10=10。则搜索请求与成员搜索引擎的匹配度 sim(Q, S4) =ci/ni=200。
而在 S5代表中,三明治取值区间为 [10,20]的内容有 200个,此时 ci=200。 搜索请求与成员搜索引擎的匹配度 sim(Q, S5) =ci/ni=20。
因此, 搜索服务选择匹配度取值较大的成员搜索引擎 S4认为是较好的搜 索引擎, 将搜索请求向其发送。
搜索服务器使用成员搜索引擎选择方法的策略可以自己制定, 在本实施例 中, 服务器采用的策略为首先用成员搜索引擎的类别进行成员搜索引擎筛选, 再用成员搜索引擎所服务的地址范围进行成员搜索引擎筛选, 最后通过成员搜 索引擎的内容代表计算查询请求与引擎的匹配度,选出最好的引擎向其发送搜 索请求。
本发明实施例通过抽取 Deep Web成员搜索引擎的类别、 属性或地址信息 代表, 利用代表计算查询请求与成员搜索引擎代表的相似度, 作为查询请求与 成员搜索引擎匹配度, 进行成员搜索引擎自动选择的方式实现 Deep Web成员 搜索引擎的自动选择搜索, 避免了搜索时指定成员搜索引擎。 并通过抽取成员 搜索引擎的类别的方式集成了大规模的 Deep Web成员搜索引擎的数量, 使庞 大的 Deep Web资源能够得到访问。 在不需要大规模的存储空间和索引数据库 来存储爬取的 Deep Web成员搜索引擎数据的情况下,实现 Deep Web成员搜索 引擎的实时搜索。
实施例四
如图 10所示, 本发明实施例的深层网移动搜索方法包括以下歩骤: 获取 Deep Web成员搜索引擎的成员搜索引擎代表, 该成员搜索引擎代表为成员搜 索引擎内容属性数据 (歩骤 S201 ); 接收客户端发送的搜索请求, 并从该搜索 请求中获取搜索请求信息 (歩骤 S202) ; 根据该搜索请求信息与成员搜索引擎 内容属性数据计算该搜索请求与成员搜索引擎的匹配度, 根据该匹配度从该成 员搜索引擎的集合中选择成员搜索引擎进行内容数据搜索 (歩骤 S203 ); 将搜 索到的内容数据发送给该客户端 (歩骤 S204)。
如图 5所示, 成员引擎选择单元 103包括: 属性匹配模块 1032用于根据 该搜索请求信息的属性与成员搜索引擎内容属性计算该搜索请求与成员搜索 引擎的匹配度。 成员搜索引擎内容属性是指: 文本属性或数值型属性或枚举型 属性中的一种。
下面以数值型属性为例, 对属性匹配模块 1032将成员搜索引擎数值型属 性与搜索请求数值型属性进行匹配进行说明:
属性匹配模块 1032根据成员搜索引擎的数值型属性代表进行匹配: Deep Web成员搜索引擎会含有数值型的属性域。 例如在购物网站上的价 格字段, 用户可以在搜索请求中提交价格数值进行搜索。 属性匹配模块 1032 根据成员搜索引擎的数值型属性代表选择成员搜索引擎的歩骤如下:
A1、 统计每个成员搜索引擎的数值型属性在各个取值区间 [ai,bi]上的取值 数量 ci, 表示为 [ai,bi,ci]。 其中 ai, bi为数值型属性的一个取值区间。 ci为成 员搜索引擎在区间 [ai,bi]上取值的数量; 计算成员搜索引擎在区间 [ai,bi]上的所 有可能取值的数量 ni, ni 的值由 ai的值、 bi的值、 以及 ai和 bi的精度及单 位计算获得。 成员搜索引擎的数值型属性代表表示为: [ ι,¾ ηΐ]。
Α2、根据数值型属性代表计算搜索请求对成员搜索引擎的匹配程度的歩骤 如下:
获取搜索请求的数值型取值 V;
计算区间 [ai,bi]是否包含 V, 如果成员搜索引擎 SE的数值型属性代表中 没有区间 [ai,bi]包含 V, 则不选择该成员搜索引擎。 如果区间 [ai,bi]包含 V, 则 计算相似度 sim(Q,SE;)=ci/ni (ci/ni为 v对应区间上的代表:)。
选择 sim(Q, SE)值较大的成员搜索引擎进行内容数据搜索。
下面以枚举型属性为例, 对属性匹配模块 1032将成员搜索引擎枚举型属 性与搜索请求枚举型属性进行匹配进行说明:
属性匹配模块 1032根据成员搜索引擎的枚举型属性代表进行匹配:
Deep Web成员搜索引擎会含有枚举型的属性域。 例如在求职网站上的工 资要求区间字段, 用户可以在搜索请求中提交枚举型的取值进行搜索。 属性匹 配模块 1032根据成员搜索引擎的枚举型属性代表进行匹配, 以选择成员搜索 引擎。 根据成员搜索引擎的枚举型属性代表选择成员搜索引擎的歩骤如下:
Al、 统计每个成员搜索引擎 SE对每个全局枚举属性取值 gv的文档频率 即成员搜索引擎所有记录中枚举型属性取值为 gv的记录的数量: df(gv, SE);
A2、 根据枚举型属性代表计算搜索请求对成员搜索引擎的匹配度包括: 方法一:
计算搜索请求与成员搜索引擎的相似度 sim(Q,SE) = df(gv, SE) I max {df(gv, S)} ,其中 max {df(gv, S)}为不同成员搜索引擎的 df(gv, SE)中的最大值。
方法二:
1)计算: matching-degree(SE) = df(gv, SE) / max {df(gv, S)} , 其中 max {df(gv, S)}为不同成员搜索引擎的 df(gV, SE)中的最大值。
2)统计成员搜索引擎与该全局^对应的本地取值^、^....^的文档频率, 即成员搜索引擎所有记录中枚举型属性取值为本地取值的记录的数量, 记为 df(vl, SE)、 df(v2, SE)...df(vk, SE)。
3)计算 r(gv, SE) = df(gv, SE) I (df(vl, SE) + … + df(vk, SE))。 4)搜索请求与成员搜索引擎相似度为:
matching-degree(SE)*r(gv, SE)/k
sim(Q, SE) =
max{matching-degree(S)*r(gv, S)/k}
其中, max{matching-degree(S)*r(gv, S)/k}为对所有成员搜索引擎计算 matching-degree(SE)*r(gv, SE)/k得到的值中的最大值。
选择 sim(Q, SE)值较大的成员搜索引擎进行内容数据搜索。
本发明实施例通过抽取 Deep Web成员搜索引擎的数值型属性或枚举型属 性的代表, 实现 Deep Web成员搜索引擎的自动选择搜索, 避免了搜索时指定 成员搜索引擎。 并通过利用代表值计算查询请求与成员搜索引擎代表的相似 度, 作为查询请求与成员搜索引擎匹配度, 进行成员搜索引擎自动选择的方式 集成了大规模的 Deep Web成员搜索引擎的数量,使庞大的 Deep Web资源能够 得到访问。 在不需要大规模的存储空间和索引数据库来存储爬取的 Deep Web 成员搜索引擎数据的情况下, 实现 Deep Web成员搜索引擎的实时搜索。
实施例五
如图 11 所示, 本发明实施例的深层网移动搜索方法包括以下歩骤: 获取 Deep Web成员搜索引擎的成员搜索引擎代表, 该成员搜索引擎代表为成员搜 索引擎所服务的地址 (歩骤 S301 ); 接收客户端发送的搜索请求, 并从该搜索 请求中获取地址信息 (歩骤 S302); 根据该搜索请求的地址信息与成员搜索引 擎所服务的地址计算该搜索请求与成员搜索引擎的匹配度, 根据该匹配度从该 成员搜索引擎的集合中选择成员搜索引擎进行内容数据搜索 (歩骤 S303 ); 将 搜索到的内容数据发送给该客户端 (歩骤 S304)。
下面结合图 5对本发明实施例进行详细说明:
如图 5所示, 成员搜索引擎选择单元 103包括: 地址匹配模块 1033用于 根据该搜索请求中包含的地址信息与成员搜索引擎所服务的地址计算该搜索 请求与成员搜索引擎的匹配度。 成员搜索引擎选择单元 103包括: 地址映射模 块 1035用于将该搜索请求中包含的地址信息和成员搜索引擎所服务的地址分 别与一组地址信息建立映射关系; 地址匹配模块 1033根据该映射关系计算该 搜索请求与成员搜索引擎的匹配度。
建立一棵位置(location)搜索目录树, 例如, 可以根据地区的行政区划形 成地理位置目录树。 分析用户搜索请求中的地址信息后, 将搜索请求映射到地 理位置目录树上的一个地址节点, 从根节点到叶节点的路径记为: loc q), q表 示搜索请求映射到位置搜索目录树的节点。根据成员搜索引擎所服务的地址范 围, 将成员搜索引擎 SE映射到该地理位置目录树上的一个或多个节点, 将这 些节点从根节点到叶节点的路径记为 loc(s:)。 s表示成员搜索引擎映射到位置搜 索目录树的节点。 则成员搜索引擎就可表示为一个路径的集合: SE={loc(S)}。
根据成员搜索引擎所服务的地址范围 SE={loc S:)}将用户搜索请求的地址 loc(s;>与其进行匹配, 进行成员搜索引擎的选择如下:
( 1 ) 如果所服务的地址范围和用户搜索请求的地址没有重合的内容, 有 公共的子字符串, 但 Ιοφ)不是 loc^的子串, loc(q)也不是 Ιοφ)的子串, 也即 搜索请求的地址和成员搜索引擎所服务的地址范围是不同的, 则不选择该成员 搜索引擎。 匹配度 sim(Q,SE)为 0。
(2) 如果 loc(q;> = loc , 即搜索请求的地址和成员搜索引擎所服务的地 址范围是相同的, 则应该选择该成员搜索引擎, 查询请求对该成员搜索引擎的 匹配度 sim(Q,SE)为 1。
(3 ) 如果 l0C(q)是 Ιοφ)的子串, 即成员搜索引擎所覆盖的范围是搜索请 求的地址下子区域, 则应该选择该成员搜索引擎, 查询请求对该成员搜索引擎 的匹配度 sim(Q,SE)为 1。
(4) 如果 loc^s;)是 loc q)的子串即搜索引擎所服务的地址范围不仅包含查 询请求的地址还包含其它区域, 则计算搜索请求对该成员搜索引擎的匹配度 sim(Q,SE)的方法有:
方法一: 根据搜索请求中的地址信息, 将搜索请求映射到的地理位置目录 树上的节点。 把地区面积比率做相似度: sim(Q,SE) = area(q) / area(s:)。 area(q) 为搜索请求所映射到的地理位置目录树上的节点的地理面积, area s)为成员搜 索弓 I擎所映射到的地理位置目录树上的节点的地理面积。
例如: 搜索请求所映射到的地理位置目录树上的节点的地理面积 area q) 与成员搜索引擎所映射到的地理位置目录树上的节点的地理面积 area s)相同, 则应该选择该成员搜索引擎,查询请求对该成员搜索引擎的匹配度 sim(Q,SE) = area(q) I area(s)― 1。
方法二: 根据搜索请求中的地址信息, 将搜索请求映射到的地理位置目录 树上的节点。 把人口数量比率做相似度: sim(Q,SE) = population(q) / population^:)。 population q) 为搜索请求所映射到的地理位置目录树上的节点 的人口数量, population s)为成员搜索弓 |擎所映射到的地理位置目录树上的节 点的人口数量。
例如: 搜索请求所映射到的地理位置目录树上的节点的人口数量 population q)与成员搜索弓 |擎所映射到的地理位置目录树上的节点的人口数量 population(s)相同, 则应该选择该成员搜索引擎, 查询请求对该成员搜索引擎 的匹配度 sim(Q,SE) = population(q) I population(s)― 1。
方法三: 根据搜索请求中的地址信息, 将搜索请求映射到的地理位置目录 树上的节点。把主题相关实体的数量比率做相似度(如餐馆数量): sim(Q,SE) = subject (q) I subjects:)。 subject (q) 为搜索请求所映射到的地理位置目录树上 的节点的实体数量, subject s)为成员搜索引擎所映射到的地理位置目录树上 的节点的实体数量。
例如: 搜索请求所映射到的地理位置目录树上的节点的实体数量 subject (q)与成员搜索弓 I擎所映射到的地理位置目录树上的节点的实体数量 subject s) 相同, 则应该选择该成员搜索引擎, 查询请求对该成员搜索引擎的匹配度 sim(Q,SE) = subject (q) I subject(s)— 1。
方法四: 根据搜索请求中的地址信息, 将搜索请求映射到的地理位置目录 树上的节点。根据地址节点中间的层数 (k)计算, 即如果搜索请求所映射到的地 理位置目录树上的节点的在 n层, 成员搜索引擎所映射到的地理位置目录树上 的节点在 m 层, |n-m|=k, 则计算搜索请求对该成员搜索引擎的匹配度: sim(Q,SE) = a k (o< a <l)。
方法五: 根据搜索请求中的地址信息, 将搜索请求映射到的地理位置目录 树上的节点。 根据叶节点的数量计算相似度, 即根据成员搜索引擎服务范围地 址节点在搜索请求的地址节点对应该层的子节点数量 d计算搜索请求与成员搜 索引擎的相似度 sim (Q,SE) = l/d, 作为成员搜索引擎选择的条件。
本发明实施例通过抽取 Deep Web成员搜索引擎的地址信息代表,实现 Deep Web成员搜索引擎的自动选择搜索, 避免了搜索时指定成员搜索引擎。 并通过 利用代表计算查询请求与成员搜索引擎代表的相似度, 作为查询请求与成员搜 索引擎匹配度, 进行成员搜索引擎自动选择的方式集成了大规模的 Deep Web 成员搜索引擎的数量, 使庞大的 Deep Web资源能够得到访问。在不需要大规模 的存储空间和索引数据库来存储爬取的 Deep Web成员搜索引擎数据的情况下, 实现 Deep Web成员搜索引擎的实时搜索。

Claims

权利要求书
1. 一种移动搜索方法, 其特征是, 所述的方法包括以下歩骤:
获取深层网 Deep Web成员搜索引擎的成员搜索引擎代表 ·'
接收客户端发送的搜索请求, 并从所述搜索请求中获取搜索请求信息; 根据所述搜索请求信息与成员搜索引擎代表计算所述搜索请求与成员搜 索引擎的匹配度, 根据所述匹配度从所述成员搜索引擎的集合中选择成员搜索 引擎进行内容数据搜索;
将搜索到的内容数据发送给所述的客户端。
2. 根据权利要求 1所述的方法, 其特征是, 所述的成员搜索引擎包括: 表面网 Surface Web成员搜索引擎。
3. 根据权利要求 1所述的方法, 其特征是, 所述成员搜索引擎包括以下 其中之一或其组合:表面网 Surface Web成员搜索引擎和深层网 Deep Web成员 搜索引擎。
4. 根据权利要求 1所述的方法, 其特征是, 所述的搜索请求信息包括: 搜索请求信息的类别、搜索请求信息的属性和搜索请求中包含的地址信息中的 至少一个。
5. 根据权利要求 4所述的方法, 其特征是, 所述成员搜索引擎代表包括: 成员搜索引擎类别、成员搜索引擎内容属性和成员搜索引擎所服务的地址中的 至少一个。
6. 根据权利要求 4所述的方法, 其特征是, 所述成员搜索引擎代表包括: 成员搜索引擎类别、成员搜索引擎内容属性代表和成员搜索引擎所服务的地域 中的至少一个。
7. 根据权利要求 5或 6所述的方法, 其特征是, 所述根据搜索请求信息 与成员搜索引擎代表计算所述搜索请求与成员搜索引擎的匹配度, 包括:
将所述搜索请求信息的类别和成员搜索引擎类别分别与一组类别信息建 立映射关系, 根据所述的映射关系计算所述搜索请求与成员搜索引擎的匹配度。
8. 根据权利要求 7所述的方法, 其特征是, 所述根据所述映射关系计算 所述搜索请求与成员搜索引擎的匹配度, 包括: 根据所述搜索请求信息的类别 与成员搜索弓 I擎类别计算所述成员搜索弓 I擎包含的内容在所述搜索请求对应 类别上的记录数与所述成员搜索引擎的总记录数的比率; 并将所述的比率作为 搜索请求与成员搜索引擎的匹配度。
9. 根据权利要求 1所述的方法, 其特征是, 所述将搜索到的内容数据发 送给所述客户端包括: 对所述内容数据进行加工处理, 并根据所述客户端的类 型对加工处理后的内容数据进行适配处理。
10. 一种深层网移动搜索服务器, 其特征是, 所述的服务器包括: 代表值获取单元, 用于获取深层网 Deep Web成员搜索引擎的成员搜索引 擎代表;
搜索请求接收单元, 用于接收客户端发送的搜索请求, 并从所述的搜索请 求中获取搜索请求信息;
成员引擎选择单元,用于根据所述搜索请求信息与成员搜索引擎代表计算 所述搜索请求与成员搜索引擎的匹配度, 根据所述匹配度从所述成员搜索引擎 的集合中选择成员搜索弓 I擎进行内容数据搜索;
搜索结果输出单元, 用于将搜索到的内容数据发送给所述的客户端。
11. 根据权利要求 10所述的服务器, 其特征是, 所述的成员搜索引擎包 括: 表面网 Surface Web成员搜索引擎。
12. 根据权利要求 10所述的服务器, 其特征是, 所述成员搜索引擎包括 以下其中之一或其组合: 表面网 Surface Web成员搜索引擎和深层网 Deep Web 成员搜索引擎。
13. 根据权利要求 10所述的服务器, 其特征是, 所述成员搜索引擎代表 包括: 成员搜索引擎类别、 成员搜索引擎内容属性和成员搜索引擎所服务的地 址中的至少一个。
14. 根据权利要求 10所述的服务器, 其特征是, 所述成员搜索引擎代表 包括: 成员搜索引擎类别、 成员搜索引擎内容属性代表和成员搜索引擎所服务 的地域中的至少一个。
15. 根据权利要求 13或 14所述的服务器, 其特征是, 所述成员引擎选择 单元包括: 类别映射模块, 用于将所述搜索请求信息的类别和成员搜索引擎类 别分别与一组类别信息建立映射关系, 根据所述的映射关系计算所述搜索请求 与成员搜索引擎的匹配度。
16. 根据权利要求 15所述的服务器, 其特征是, 所述成员引擎选择单元 包括: 类别匹配模块, 用于根据所述的映射关系计算所述成员搜索引擎包含的 内容在所述搜索请求对应类别上的记录数与所述成员搜索引擎的总记录数的 比率, 并将所述的比率作为搜索请求与成员搜索引擎的匹配度。
17. 根据权利要求 13所述的服务器, 其特征是, 所述成员引擎选择单元 包括: 属性匹配模块, 用于根据所述的搜索请求信息的属性与成员搜索引擎内 容属性计算所述搜索请求与成员搜索引擎的匹配度。
18. 根据权利要求 17所述的服务器, 其特征是, 所述成员搜索引擎内容 属性是指: 文本属性或数值型属性或枚举型属性中的一种。
19. 根据权利要求 13所述的服务器, 其特征是, 所述成员引擎选择单元 包括: 地址匹配模块, 用于根据所述的搜索请求中包含的地址信息与成员搜索 引擎所服务的地址计算所述搜索请求与成员搜索引擎的匹配度。
20. 根据权利要求 19所述的服务器, 其特征是, 所述成员引擎选择单元 包括: 地址映射模块, 用于将所述搜索请求中包含的地址信息和成员搜索引擎 所服务的地址分别与一组地址信息建立映射关系;
所述的地址匹配模块根据所述的映射关系计算所述搜索请求与成员搜索 引擎的匹配度。
21. 根据权利要求 14所述的服务器, 其特征是, 所述成员引擎选择单元 包括: 属性匹配模块, 用于根据所述搜索请求信息的属性与成员搜索引擎内容 属性代表计算所述搜索请求与成员搜索引擎的匹配度。
22. 根据权利要求 21所述的服务器, 其特征是, 所述成员搜索引擎内容 属性代表是指: 文本属性代表或数值型属性代表或枚举型属性代表中的一种。
23. 根据权利要求 14所述的服务器, 其特征是, 所述成员引擎选择单元 包括: 地域匹配模块, 用于根据所述搜索请求中包含的地域信息与成员搜索引 擎所服务的地域计算所述搜索请求与成员搜索引擎的匹配度。
24. 根据权利要求 23所述的服务器, 其特征是, 所述成员引擎选择单元 包括: 地域映射模块, 用于将所述搜索请求中包含的地域信息和成员搜索引擎 所服务的地域分别与一组地域信息建立映射关系;
所述地域匹配模块根据所述映射关系计算所述搜索请求与成员搜索引擎 的匹配度。
25. 根据权利要求 10所述的服务器, 其特征是, 所述搜索结果输出单元 包括: 结果适配模块, 用于对所述的内容数据进行加工处理, 并根据所述客户 端的类型对加工处理后的内容数据进行适配处理。
26. 一种深层网移动搜索方法, 其特征是, 所述方法包括以下歩骤: 获取 Deep Web成员搜索引擎的成员搜索引擎代表, 所述成员搜索引擎代 表为成员搜索引擎内容属性数据;
接收客户端发送的搜索请求, 并从所述搜索请求中获取搜索请求信息; 根据所述搜索请求信息与成员搜索引擎内容属性数据计算所述搜索请求与成 员搜索引擎的匹配度, 根据所述匹配度从所述成员搜索引擎的集合中选择成员 搜索引擎进行内容数据搜索;
将搜索到的内容数据发送给所述客户端。
27. 根据权利要求 26所述的方法,其特征是,所述成员搜索引擎内容属性 数据是指: 数值型属性数据;
所述根据所述搜索请求信息与成员搜索引擎内容属性数据计算所述搜索 请求与成员搜索引擎的匹配度, 包括:
( 1 ) 获取所述搜索请求信息中的数值型数据值;
( 2 ) 根据所述数值型数据值与成员搜索引擎的数值型属性数据计算所述 搜索请求与成员搜索引擎的匹配度。
28根据权利要求 27所述的方法, 其特征是, 所述数值型属性数据为: 每 个成员搜索引擎的数值型属性在各个取值区间 [ai,bi]上的取值数量 ci, 表示为 [ai,bi,ci]。
29.根据权利要求 28所述的方法, 其特征是, 计算所述匹配度采用如下公 式: sim(Q,SE)=ci/ni;
其中, sim(Q,SE)表示匹配度, Q表示搜索请求的类别; SE表示成员搜索 引擎的类别; m为成员搜索引擎在取值区间 [ai,W]上的所有可能取值的数量。
30.根据权利要求 26所述的方法, 其特征是, 所述成员搜索引擎内容属性 数据是指: 枚举型属性数据;
所述根据所述搜索请求信息与成员搜索引擎内容属性数据计算所述搜索 请求与成员搜索引擎的匹配度, 包括:
( 1 ) 获取所述搜索请求信息中的枚举型数据值;
( 2 ) 根据所述枚举型数据值与成员搜索引擎的枚举型属性数据计算所述 搜索请求与成员搜索引擎的匹配度。
31.根据权利要求 30所述的方法, 其特征是, 所述枚举型属性数据为: 成 员搜索引擎所有记录中枚举型属性取值为全局取值 gv的记录的数量,表示为: df(gv, SE);
其中, gv表示成员搜索引擎所有记录中枚举型属性取值的全局取值, SE 表示成员搜索引擎的类别。
32.根据权利要求 31所述的方法, 其特征是, 计算所述匹配度采用如下公 式:
sim(Q,SE) = df(gv, SE) / max {df(gv, S)} ;
其中, sim(Q,SE)表示匹配度, Q表示搜索请求的类别; SE表示成员搜索 引擎的类别; max {df(gv, S)}表示不同成员搜索引擎的 df(gv, SE)中的最大值。
33.根据权利要求 31所述的方法, 其特征是, 计算所述匹配度采用如下方 式:
计算成员搜索引擎 SE的所有记录中枚举型属性取值为全局取值 gv的记录 的数量 df(gv, SE)与所有不同成员搜索引擎的 df(gv, SE)中的最大值 max {df(gv, S)}的比值, 表示为 matching-degree(SE) = df(gv, SE) I max {df(gv, S)} , 其中 max {df(gv, S)}为不同成员搜索引擎的 df(gv, SE)中的最大值; 或者,
统计成员搜索弓 I擎与所述全局取值 gv对应的本地取值 vl、 v2....vk的文档 频率, 表示为 df(vl , SE)、 df(v2, SE) . . . df(vk, SE) ; 或者,
计算成员搜索引擎所有记录中枚举型属性取值为全局取值 gv的记录的数 量 df(gv, SE)与成员搜索引擎所有记录中枚举型属性取值为各个本地取值的记 录数量之和的比值, 表示为 r(gv, SE) = df(gv, SE) I (df(vl , SE) + … + df(vk, SE)); 或者,
采用如下公式计算搜索请求与成员搜索引擎的匹配度:
sim(Q, SE) = mashing- Qgree{SE r{gv, SE) I k
max{matching- degree(S) * r(gv, S) I k)
其中, max{matching-degree(S)*r(gv, S)/k}为对所有成员搜索引擎计算 matching-degree(SE)*r(gv, SE)/k得到的值中的最大值。
34. —种深层网移动搜索方法, 其特征是, 所述的方法包括以下歩骤: 获取 Deep Web成员搜索引擎的成员搜索引擎代表, 所述成员搜索引擎代 表为成员搜索引擎所服务的地址;
接收客户端发送的搜索请求, 并从所述搜索请求中获取地址信息; 根据搜索请求的地址信息与成员搜索引擎所服务的地址计算所述搜索请 求与成员搜索引擎的匹配度, 根据所述匹配度从所述成员搜索引擎的集合中选 择成员搜索弓 I擎进行内容数据搜索;
将搜索到的内容数据发送给所述客户端。
35. 根据权利要求 34所述的方法,其特征是,所述根据所述搜索请求的地 址信息与成员搜索引擎所服务的地址计算所述搜索请求与成员搜索引擎的匹 配度包括:
( 1 ) 获取所述搜索请求信息中的地址信息;
(2 ) 根据所述搜索请求中的地址信息对应的地理面积与所述成员搜索引 擎所服务的地址对应的地理面积计算所述搜索请求与成员搜索引擎的匹配度。
36. 根据权利要求 34所述的方法,其特征是,所述根据所述搜索请求的地 址信息与成员搜索引擎所服务的地址计算所述搜索请求与成员搜索引擎的匹 配度包括:
( 1 ) 获取所述搜索请求信息中的地址信息;
(2 ) 根据所述搜索请求中的地址信息对应的人口数量与所述成员搜索引 擎所服务的地址的人口计算所述搜索请求与成员搜索引擎的匹配度。
37. 根据权利要求 34所述的方法,其特征是,所述根据所述搜索请求的地 址信息与成员搜索引擎所服务的地址计算所述搜索请求与成员搜索引擎的匹 配度包括:
( 1 ) 获取所述搜索请求信息中的地址信息;
(2 ) 根据所述搜索请求中的地址信息对应的实体数量与所述成员搜索引 擎所服务的地址的实体数量计算所述搜索请求与成员搜索引擎的匹配度。
38. 一种深层网移动搜索方法, 其特征是, 所述方法包括以下歩骤: 获取 Deep Web成员搜索引擎的成员搜索引擎代表, 所述成员搜索引擎代 表为成员搜索引擎内容属性代表;
接收客户端发送的搜索请求, 并从所述搜索请求中获取搜索请求信息; 根据所述搜索请求信息与成员搜索引擎内容属性的代表计算所述搜索请求与 成员搜索引擎的匹配度, 根据所述匹配度从所述成员搜索引擎的集合中选择成 员搜索引擎进行内容数据搜索;
将搜索到的内容数据发送给所述客户端。
39.根据权利要求 38所述的方法, 其特征是, 所述成员搜索引擎内容属性 代表包括: 数值型属性代表;
所述根据所述搜索请求信息与成员搜索引擎属性的代表计算所述搜索请 求与成员搜索引擎的匹配度, 包括:
( 1 ) 获取所述搜索请求信息中的数值型数据值; (2 ) 根据所述数值型数据值与成员搜索引擎的数值型属性的代表计算所 述搜索请求与成员搜索引擎的匹配度。
40.根据权利要求 38所述的方法, 其特征是, 所述成员搜索引擎内容属性 代表包括: 枚举型属性代表;
所述根据所述搜索请求信息与成员搜索引擎属性的代表计算所述搜索请 求与成员搜索引擎的匹配度, 包括:
( 1 ) 获取所述搜索请求信息中的枚举型数据值;
(2 ) 根据所述枚举型数据值与成员搜索引擎的枚举型属性的代表计算所 述搜索请求与成员搜索引擎的匹配度。
41. 一种深层网移动搜索方法, 其特征是, 所述方法包括以下歩骤: 获取 Deep Web成员搜索引擎的成员搜索引擎代表, 所述成员搜索引擎代 表为成员搜索引擎所服务的地域;
接收客户端发送的搜索请求, 并从所述搜索请求中获取地域信息; 根据搜索请求的地域信息与成员搜索引擎所服务的地域计算所述搜索请 求与成员搜索引擎的匹配度, 根据所述匹配度从所述成员搜索引擎的集合中选 择成员搜索弓 I擎进行内容数据搜索;
将搜索到的内容数据发送给所述客户端。
42. 根据权利要求 41所述的方法,其特征是,所述根据所述搜索请求的地 域信息与成员搜索引擎所服务的地域计算所述搜索请求与成员搜索引擎的匹 配度包括:
( 1 ) 获取所述搜索请求信息中的地域信息;
(2 ) 根据所述搜索请求的地域的地理面积与所述成员搜索引擎所服务的 地域的地理面积计算所述搜索请求与成员搜索引擎的匹配度; 或者,
所述根据所述搜索请求的地域信息与成员搜索引擎所服务的地域计算所 述搜索请求与成员搜索引擎的匹配度, 包括:
( 1 ) 获取所述搜索请求信息中的地域信息;
(2 ) 根据所述搜索请求的地域的人口数量与所述成员搜索引擎所服务的 地域的人口计算所述搜索请求与成员搜索引擎的匹配度; 或者,
所述根据所述搜索请求的地域信息与成员搜索引擎所服务的地域计算所 述搜索请求与成员搜索引擎的匹配度包括:
( 1 ) 获取所述搜索请求信息中的地域信息;
(2) 根据所述搜索请求的地域的实体数量与所述成员搜索引擎所服务的 地域的实体数量计算所述搜索请求与成员搜索引擎的匹配度。
PCT/CN2009/075158 2009-01-24 2009-11-26 一种深层网移动搜索方法、服务器及系统 WO2010083698A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN200910004311.4 2009-01-24
CN200910004311A CN101788981A (zh) 2009-01-24 2009-01-24 一种深层网移动搜索方法、服务器及系统

Publications (1)

Publication Number Publication Date
WO2010083698A1 true WO2010083698A1 (zh) 2010-07-29

Family

ID=42355515

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2009/075158 WO2010083698A1 (zh) 2009-01-24 2009-11-26 一种深层网移动搜索方法、服务器及系统

Country Status (2)

Country Link
CN (1) CN101788981A (zh)
WO (1) WO2010083698A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156733A (zh) * 2011-03-25 2011-08-17 清华大学 一种基于面向服务架构的搜索引擎及搜索方法
CN103678490B (zh) * 2013-11-14 2017-01-11 桂林电子科技大学 一种基于Hadoop平台的Deep Web查询接口聚类方法
CN103631887B (zh) * 2013-11-15 2017-04-05 北京奇虎科技有限公司 浏览器侧进行网络搜索的方法与浏览器
CN110008407B (zh) * 2019-04-09 2021-05-04 苏州浪潮智能科技有限公司 一种信息检索方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003083643A1 (en) * 2002-03-25 2003-10-09 Morciz Michael Z Accessing deep web information using a search engine
US20080040327A1 (en) * 2006-08-14 2008-02-14 International Business Machines Corporation System and method for searching deep web services

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003083643A1 (en) * 2002-03-25 2003-10-09 Morciz Michael Z Accessing deep web information using a search engine
US20080040327A1 (en) * 2006-08-14 2008-02-14 International Business Machines Corporation System and method for searching deep web services

Also Published As

Publication number Publication date
CN101788981A (zh) 2010-07-28

Similar Documents

Publication Publication Date Title
US8972371B2 (en) Search engine and indexing technique
US6681227B1 (en) Database system and a method of data retrieval from the system
US9646060B2 (en) Method and server for pushing information proactively
US8510377B2 (en) Methods and systems for exploring a corpus of content
US7702681B2 (en) Query-by-image search and retrieval system
US8209317B2 (en) Method and apparatus for reconstructing a search query
US20100094853A1 (en) System and methodology for a multi-site search engine
JP2010518526A (ja) ウェブサービス照会方法および装置
CN101641694A (zh) 通过若干搜索引擎实现的联合搜索
US20080201317A1 (en) Ranking documents
US8180751B2 (en) Using an encyclopedia to build user profiles
WO2009062424A1 (fr) Procédé et système de recherche
WO2007098710A1 (fr) Système et procédé de recherche basés sur des données personnalisées
CN101196900A (zh) 一种基于元数据的信息检索方法
JP3501799B2 (ja) 情報検索支援装置、コンピュータプログラム、プログラム格納媒体
CN105787066A (zh) 基于全量分析的数字内容分发系统
WO2010083698A1 (zh) 一种深层网移动搜索方法、服务器及系统
CN101676901A (zh) 搜索调度方法及搜索服务器
US20120317091A1 (en) System and method for users to get newly updates
CN112800083A (zh) 一种面向政府决策的政务大数据分析方法及设备
US20060149606A1 (en) System and method for agent assisted information retrieval
JP2010511249A (ja) アグリゲーション・シンジケーション・プラットフォーム
CN114417179A (zh) 一种面向大规模知识库群的元搜索引擎处理方法和装置
KR20180047723A (ko) Ai 학습 엔진을 이용한 인터넷 정보 해석 시스템
CN113889199A (zh) 一种基于化合物的搜索引擎和搜索方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09838665

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09838665

Country of ref document: EP

Kind code of ref document: A1