WO2014161454A1 - 一种用于半封闭数据环境下的数据搜索的方法和装置 - Google Patents

一种用于半封闭数据环境下的数据搜索的方法和装置 Download PDF

Info

Publication number
WO2014161454A1
WO2014161454A1 PCT/CN2014/074409 CN2014074409W WO2014161454A1 WO 2014161454 A1 WO2014161454 A1 WO 2014161454A1 CN 2014074409 W CN2014074409 W CN 2014074409W WO 2014161454 A1 WO2014161454 A1 WO 2014161454A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
semi
environment
closed
webpage
Prior art date
Application number
PCT/CN2014/074409
Other languages
English (en)
French (fr)
Inventor
张士益
Original Assignee
Zhang Shiyi
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhang Shiyi filed Critical Zhang Shiyi
Publication of WO2014161454A1 publication Critical patent/WO2014161454A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Definitions

  • the present invention relates to the field of data search, and in particular to data for use in a semi-closed data environment Search method and device.
  • Search engines collect information from the Internet using specific computer programs based on certain strategies. Information, after the organization and processing of information, provide users with search services, related to user searches Information is presented to the user.
  • the search engine works by using a "spider” system (or crawler technology). Automatically access web pages on the Internet, read text content from the web page, and find packages in the web page Other link addresses included, and crawl along the link address to crawl to other pages, "Spider” system This crawling process is repeated over the Internet and all webpage data that has been crawled is collected back.
  • a "spider” system or crawler technology
  • the existing "spider" system will first select a website address from the initial URL library, which is generally For those large portals, from these initial URLs, spiders will access and download the corresponding pages. Stored in the database, and extract the text from it for word segmentation and then store it in the index library. At the same time, the spider system extracts the other URL links that exist in the content of the webpage, and then repeats the above. Cheng. Because there is a link between the top and bottom of each page in a website, and There can be address links to other websites, so using a spider system, not only can you quickly All the pages of the site are accessed once, and you can also use those other site address links to crawl to New website and get the web content of the new website.
  • the existing search engine utilizes the "spider" system to collect Web page data is publicly available web page data, and cannot be used for data in a semi-closed data environment. Collect it.
  • Semi-enclosed data environments especially data environments that require authorization or authentication mechanisms, are not acceptable
  • the address links of these websites are rare.
  • the main object of the present invention is to provide a method for semi-closed data environment.
  • Data search method and apparatus to solve the prior art existence of a search engine cannot search semi-closed Problems with useful data in the data environment.
  • the invention provides a data searching method for a semi-closed data environment, comprising the following steps Step: Build a client browser, through which you can log in to the site using the default login information. a network access address of the semi-enclosed data environment; the client browser Accessing a predetermined web page address in a semi-closed data environment and obtaining from the semi-closed data environment The data file of the corresponding webpage returned by the server; according to the preset data corresponding to the webpage Location information, extracting data of the corresponding location from the data file.
  • the step of extracting data of the corresponding location in the file including: by using the client browser Accessing the obtained webpage data file for analysis, according to the preset and the number to be obtained in the webpage Positioning the matching tag in the data file according to the corresponding file tag information; According to the label position, data corresponding to the label position is extracted from the data file.
  • the step of extracting data corresponding to the location of the label includes: running The script data corresponding to the position of the tag, and the running result data is extracted.
  • the method of the present invention further comprises: constructing a database, recording the semi-closed number According to the environment's network access address, the default login information that can be logged into the data environment, in the data environment The address of the webpage that needs to be accessed, and the file identifier corresponding to the data to be obtained in the webpage Sign the information.
  • the client browser further includes: obtaining, by the half seal a session token assigned by a server in a closed data environment and carrying the session token to the semi-closed data Access to the default web address in the environment.
  • the invention also provides a data search device for a semi-closed data environment, comprising:
  • Login module for building a client browser, using the default login Information logging in to the server of the semi-closed data environment;
  • An access module configured by the client browser to the semi-closed data environment after successful login Accessing the default webpage address in the webpage, and obtaining the datatext of the corresponding webpage returned from the server Piece
  • An extraction module configured to: according to preset data location information corresponding to the webpage, from the The data in the corresponding location is extracted from the data file.
  • the extracting module includes: the positioning unit obtains access through the client browser The webpage data file is analyzed, corresponding to the data to be acquired in the webpage according to a preset File tag information in which the location of the matching tag is located; extracting the cell root According to the label position, data corresponding to the label position is extracted from the data file.
  • the extracting unit is configured to run script data corresponding to the label position, and The result data is extracted.
  • the device further includes a database for recording the semi-closed data environment Network access address, preset login information that can be logged into the data environment, and need to be visited in the data environment The web page address of the question, and the file tag information corresponding to the data to be acquired in the web page.
  • the access module configured to acquire, by the server of the semi-closed data environment, a session token, and carrying the session token to perform a preset webpage address in the semi-enclosed data environment access.
  • the semi-closed data ring can be realized without establishing a special interface. Automatic search of the environment, extracting the data needed in it accurately, thus improving the data search Efficiency, expanding the scope of data search, and improving the accuracy of data search results.
  • FIG. 1 is a flow chart of a data search method for a semi-closed data environment according to an embodiment of the present invention
  • FIG. 2 is a block diagram of a data search device for a semi-closed data environment according to an embodiment of the present invention.
  • the main idea of the present invention is to construct a client browser through which the browser is used.
  • Default login information is used to log in to access the network access address of the semi-closed data environment; the client browses After the login is successful, the browser accesses the preset webpage address in the semi-closed data environment, and obtains Taking a data file of a corresponding webpage returned from the server of the semi-closed data environment; according to a preset Data location information corresponding to the webpage, and data of the corresponding location is extracted from the data file take out.
  • a data searcher for a semi-closed data environment is provided law.
  • FIG. 1 is a data search side for a semi-closed data environment according to an embodiment of the present invention. Flow chart of the law.
  • a client browser is built, through which the default login is used.
  • Information login accesses the network access address of the semi-enclosed data environment.
  • Embodiments of the present invention implement data search in a manner that is completely different from existing crawler techniques.
  • existing The crawler technology does not use the browser access method, but uses the command request method and the web server.
  • Interaction which is possible for data searches in open data environments, but for semi-closed data Environment, especially access to data environments with high security requirements, due to some attribute parameters in the command Requesting this type of access is invisible, so if you still use the command request method, you can't Make an access.
  • the embodiment of the present invention can be constructed by using a browser access method by constructing a client browser.
  • attribute parameters that are not available in the existing crawler technology, such as session ID (Session ID) Numbers, etc.
  • Users can browse semi-closed data environments through the client browser, but if not The access rights of the server with the semi-enclosed data environment will result in the inability to log in, because In this way, the login information for the semi-enclosed data environment can be collected in advance to obtain access rights.
  • the corresponding semi-closed data can be further The environment is analyzed to know the address of the webpage that needs to be accessed in the data environment, and the network Information such as the file label corresponding to the data to be obtained in the page.
  • the environment is analyzed to know the address of the webpage that needs to be accessed in the data environment, and the network Information such as the file label corresponding to the data to be obtained in the page.
  • the semi-closed number is registered.
  • the client browser accesses the semi-closed data environment after successful login Accessing the default web page address and obtaining the return from the server of the semi-enclosed data environment Corresponding to the data file of the web page.
  • the semi-enclosed data environment has a network access address corresponding thereto, based on the network access location Address, the client browser uses the default login information to log in to the server in the semi-enclosed data environment, You can access its individual pages.
  • the embodiment of the present invention utilizes a preset webpage address to Perform an access. For example, after logging in to a social networking site, you can directly control the browser to access the presence. Interest data page; for example, after logging in to an online banking, you can directly control the browser to access the existing product. Introduced page.
  • the pre-set webpage address may include a single webpage address and/or webpage location. Address stream.
  • the client browser accesses the preset single webpage address, that is, accesses one a preset webpage address; and the client browser accesses a preset webpage address stream (the webpage The address stream contains an ordered plurality of web page addresses), that is, based on the ordered order contained in the web address stream The order of the webpage addresses, which in turn executes each of the plurality of webpage addresses for obtaining Taking a data file of a corresponding webpage returned from a server of the semi-closed data environment, wherein the number The file corresponds to the last web page address line located in the ordered plurality of web page addresses.
  • the access party is often required to carry a session order.
  • the card can perform the access, therefore, according to an embodiment of the present invention, after the login is successful, the Stepping to acquire a session token assigned by a server of the semi-enclosed data environment and carrying the session token Accessing a predetermined web page address in the semi-closed data environment.
  • step S106 according to the preset data location information corresponding to the webpage, from the The data in the corresponding location is extracted from the data file.
  • the network access address to be accessed Www.facebook.com; 2, the corresponding default login information: account: mike; password: 123; 3, The address of the webpage that needs to be accessed for the data of interest: 1.facebook.com; 4, the number of pages in the webpage
  • the tag information corresponding to the data of interest in the file is the second ⁇ a> tag.
  • the network access address to be accessed may be first obtained from the database. Then perform login according to the corresponding login information. After successful login, you can control the browser to directly access the preset.
  • the webpage address is matched from the obtained webpage data file according to the preset file label information. The location of the label.
  • some data in the data file can be directly extracted and presented to the user. For example, text content.
  • script data (eg, JS code) may also be included in the data file due to the number of scripts According to the executable file, the data cannot be extracted directly. In this case, it can be passed by other parties.
  • extracting data for example, first running script data corresponding to the location of the tag to obtain The result of running the script data, and extracting the running result data.
  • the invention also provides a data search device for a semi-closed data environment, as shown in FIG.
  • FIG. A block diagram of a data search device for a semi-closed data environment in accordance with an embodiment of the present invention.
  • the device according to the present invention may include a login module 210, an access module 230, and an extraction module. 250.
  • the login module 210 is configured to construct a client browser, and use the browser to use the preset
  • the login information is logged in to access the network access address of the semi-enclosed data environment.
  • the login module 210 can obtain access to the semi-closed data environment. Permissions.
  • the access module 230 is configured to: the client browser browses the semi-closed data after successful login Accessing a preset web page address in the environment and obtaining a return from the server of the semi-enclosed data environment The data file of the corresponding web page.
  • the server issues a session order.
  • the access module 230 acquires a session token assigned by a server of the semi-enclosed data environment, and Carrying the session token to access the preset webpage address in the semi-closed data environment.
  • the extracting module 250 is configured to: according to preset data location information corresponding to the webpage, The data of the corresponding location is extracted in the data file.
  • the positioning unit is configured to access the webpage data file obtained through the client browser access Performing an analysis according to a preset file label information corresponding to data to be acquired in the webpage, Positioning the matching tags in the data file.
  • An extracting unit is configured to extract data corresponding to the label position according to the label position Come.
  • the extraction unit in the extraction module 250 runs The script data corresponding to the position of the tag, and the running result data is extracted.
  • the present invention is semi-closed by presetting and recording useful data in a semi-closed data environment
  • the data is located and extracted, and the data is finally presented to the user, thereby improving the data.
  • Search efficiency expand the scope of data search, and improve the accuracy of data search results.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种用于半封闭数据环境下的数据搜索的方法和装置,包括:构建一个客户端浏览器,通过该浏览器,使用预设登录信息登录访问所述半封闭数据环境的网络访问地址;所述客户端浏览器在登录成功后对所述半封闭数据环境中的预设网页地址进行访问,并获取从所述半封闭数据环境的服务器返回的对应网页的数据文件;根据预设的与所述网页相对应的数据位置信息,从所述数据文件中将相应位置的数据提取出来。本发明可以无需建立特殊接口即可实现对半封闭数据环境的自动搜索,将其中所需要的数据准确的提取出来,从而提高了数据搜索效率、扩大了数据搜索范围,同时也提高了数据搜索结果的准确性。

Description

一种用于半封闭数据环境下的数据搜索的方法和装置 技术领域
本发明涉及数据搜索领域,尤其涉及一种用于半封闭数据环境下的数据 搜索的方法和装置。
背景技术
搜索引擎是根据一定的策略,运用特定的计算机程序从互联网上搜集信 息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索的相关 信息展示给用户。
在现有技术中,搜索引擎的工作过程是利用“蜘蛛”系统(或爬虫技术), 自动访问互联网中的网页,读取该网页中的文字内容,并找到该网页中的包 含的其他链接地址,并沿着该链接地址访问爬行到其他网页,“蜘蛛”系统 在互联网中不断重复这种爬行过程,并把所爬行过的所有网页数据收集回来。
现有的“蜘蛛”系统首先会从初始网址库中选取一个网站地址,一般是 那些大型门户网站,从这些初始网址出发,蜘蛛会访问并下载对应的网页内 容存储到数据库中,并将其中的文字提取出来进行分词后存入索引库中,同 时,蜘蛛系统再提取出该网页内容中存在的其他网址链接,然后重复上述过 程。由于一个网站中的各个网页之间存在着上下层级的链接关系,而且也可 能存在着其他网站的地址链接,因此,利用蜘蛛系统,不仅可以很快将一个 网站的全部网页都访问一遍,而且还可以利用那些其他网站地址链接爬行到 新的网站,并获取新网站的网页内容。
但是,从上述描述可知,现有的搜索引擎利用的“蜘蛛”系统所收集的 网页数据均为公开性的网页数据,对于处于半封闭数据环境下的数据并不能 进行收集。例如,对于一些会员制的论坛网站、微博网站、个人网银系统等 半封闭数据环境,特别是需要授权或验证机制的数据环境,是无法接受类似 于“蜘蛛”系统这样的外部访问的,实际上,这些网站的地址链接也很少有 机会出现在公开性的网页上,即使有,在被蜘蛛系统获取并访问后,由于没 有访问权限,其返回的结果也是无法打开网页,无法进行后续的爬行来获取 数据。
然而,在这些半封闭数据环境下的数据并不是完全的隐私数据,但现有 的搜索引擎由于技术上的原因并不能自动的为普通公众用户获取到这些数 据。即便是有访问权限的用户,也无法自动的准确的获得感兴趣的数据。实 际上,现有的搜索引擎如果要获取这些半封闭数据环境下的数据,必须通过 单独与这些数据环境建立特定的数据开放接口才可以进行访问获取。这是非 常不经济的,而且如果对方不同意建立开放接口,那么现有的搜索引擎就无 法有效的获取到这些数据。
发明内容
针对上述问题,本发明的主要目的在于提供一种用于半封闭数据环境下 的数据搜索的方法和装置,以解决现有技术存在的搜索引擎不能搜索半封闭 数据环境中的有用数据的问题。
为了解决上述技术问题,本发明的目的是通过以下技术方案实现的:
本发明提供了一种用于半封闭数据环境下的数据搜索方法,包括以下步 骤:构建一个客户端浏览器,通过该浏览器,使用预设登录信息登录访问所 述半封闭数据环境的网络访问地址;所述客户端浏览器在登录成功后对所述 半封闭数据环境中的预设网页地址进行访问,并获取从所述半封闭数据环境 的服务器返回的对应网页的数据文件;根据预设的与所述网页相对应的数据 位置信息,从所述数据文件中将相应位置的数据提取出来。
其中,所述根据预设的与所述网页相对应的数据位置信息,从所述数据 文件中将相应位置的数据提取出来的步骤,包括:对通过所述客户端浏览器 访问获得的网页数据文件进行分析,根据预设的与在所述网页中要获取的数 据相对应的文件标签信息,在所述数据文件中定位相匹配的标签的位置;根 据所述标签位置,从所述数据文件中将与该标签位置相对应的数据提取出来。
其中,所述将与该标签位置相对应的数据提取出来的步骤,包括:运行 与该标签位置相对应的脚本数据,并将运行结果数据提取出来。
其中,本发明所述方法进一步包括:构建一数据库,记录所述半封闭数 据环境的网络访问地址、可登录该数据环境的预设登录信息、在该数据环境 中需要访问的网页地址,以及与在所述网页中要获取的数据相对应的文件标 签信息。
其中,所述客户端浏览器在登录成功后,进一步包括:获取由所述半封 闭数据环境的服务器分配的会话令牌,并携带该会话令牌对所述半封闭数据 环境中的预设网页地址进行访问。
本发明还提供了一种用于半封闭数据环境下的数据搜索装置,包括:
登录模块,用于构建一个客户端浏览器,通过该浏览器,使用预设登录 信息登录访问所述半封闭数据环境的服务器;
访问模块,用于所述客户端浏览器在登录成功后对所述半封闭数据环境 中的预设网页地址进行访问,并获取从所述服务器返回的对应网页的数据文 件;
提取模块,用于根据预设的与所述网页相对应的数据位置信息,从所述 数据文件中将相应位置的数据提取出来。
其中,所述提取模块包括:定位单元对通过所述客户端浏览器访问获得 的网页数据文件进行分析,根据预设的与在所述网页中要获取的数据相对应 的文件标签信息,在所述数据文件中定位相匹配的标签的位置;提取单元根 据所述标签位置,从所述数据文件中将与该标签位置相对应的数据提取出来。
其中,所述提取单元,用于运行与该标签位置相对应的脚本数据,并将 运行结果数据提取出来。
其中,所述装置进一步包括一数据库,用于记录所述半封闭数据环境的 网络访问地址、可登录该数据环境的预设登录信息、在该数据环境中需要访 问的网页地址,以及与在所述网页中要获取的数据相对应的文件标签信息。
其中,所述访问模块,用于获取由所述半封闭数据环境的服务器分配的 会话令牌,并携带该会话令牌对所述半封闭数据环境中的预设网页地址进行 访问。
应用本发明的实施例,可以无需建立特殊接口即可实现对半封闭数据环 境的自动搜索,将其中所需要的数据准确的提取出来,从而提高了数据搜索 效率、扩大了数据搜索范围,同时也提高了数据搜索结果的准确性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部 分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的 不当限定。在附图中:
图1是本发明实施例的用于半封闭数据环境下的数据搜索方法的流程 图;
图2是本发明实施例的用于半封闭数据环境下的数据搜索装置的模块 图。
具体实施方式
本发明的主要思想在于,构建一个客户端浏览器,通过该浏览器,使用 预设登录信息登录访问所述半封闭数据环境的网络访问地址;所述客户端浏 览器在登录成功后对所述半封闭数据环境中的预设网页地址进行访问,并获 取从所述半封闭数据环境的服务器返回的对应网页的数据文件;根据预设的 与所述网页相对应的数据位置信息,从所述数据文件中将相应位置的数据提 取出来。
为使本发明的目的、技术方案和优点更加清楚,以下结合附图及具体实 施例,对本发明作进一步地详细说明。
根据本发明的实施例,提供了一种用于半封闭数据环境下的数据搜索方 法。
参考图1,图1是本发明实施例的用于半封闭数据环境下的数据搜索方 法的流程图。
在步骤S102处,构建一个客户端浏览器,通过该浏览器,使用预设登录 信息登录访问所述半封闭数据环境的网络访问地址。
本发明的实施例实现数据搜索的方式与现有的爬虫技术完全不同。现有 的爬虫技术并不采用浏览器访问方式,而是采用命令请求方式与网站服务器 交互,这对于开放数据环境下的数据搜索是可以的,但对于半封闭式的数据 环境,尤其是安全性要求较高的数据环境的访问,由于有些属性参数在命令 请求这种访问方式中是不可见的,因此,如果仍然采用命令请求方式就无法 进行访问。
本发明实施例通过构建一个客户端浏览器,采用浏览器访问方式,则可 以获取现有爬虫技术所无法获得的属性参数,例如会话令牌(Session ID)参 数等。用户可以通过该客户端浏览器对半封闭数据环境进行浏览,但如果不 具有该半封闭数据环境的服务器的访问权限,就会造成无法登录的情况,因 此,可以预先收集设定针对该半封闭数据环境的登录信息,以获得访问权限。
例如,针对微博、论坛等半封闭数据环境,可以通过预先注册用户名和 密码的方式预先获得登录信息;针对社交网站等半封闭数据环境,可以通过 预先注册姓名和密码的方式获得登录信息;针对网银等半封闭数据环境,可 以通过预先注册银行卡号和密码的方式获得登录信息。
实际上,在预先获得登录信息后,还可以进一步对该相应的半封闭数据 环境进行分析,获知在该数据环境中需要访问的网页地址,以及与在所述网 页中要获取的数据相对应的文件标签等信息。由此,可以通过构建一数据库, 来记录所述半封闭数据环境的网络访问地址、可登录该数据环境的预设登录 信息、在该数据环境中需要访问的网页地址,以及与在所述网页中要获取的 数据相对应的文件标签信息。当然,除了预先分析获知外,在登录半封闭数 据环境后,通过对其各个页面进行自动访问和分析也可以获知相应的网页地 址以及文件标签等信息。但从搜索效率和准确性角度来说,显然根据预设信 息执行访问的效果更好。
在步骤S104处,所述客户端浏览器在登录成功后对所述半封闭数据环境 中的预设网页地址进行访问,并获取从所述半封闭数据环境的服务器返回的 对应网页的数据文件。
所述半封闭数据环境存在与其对应的网络访问地址,基于该网络访问地 址,客户端浏览器利用预设的登录信息登录半封闭数据环境的服务器后,就 可以对其各个页面进行访问。
为了提高访问效率和准确性,本发明实施例利用预先设置的网页地址来 执行访问。例如在登录某个社交网站后,可以直接控制浏览器访问存在感兴 趣数据的页面;再例如登录某个网银后,可以直接控制浏览器访问存在产品 介绍的页面。
具体而言,该预先设置的网页地址可以包括单一的网页地址和/或网页地 址流。
进一步地,客户端浏览器对预设的单一网页地址进行访问,即访问一个 预设的网页地址;而客户端浏览器对预设的网页地址流进行访问(所述网页 地址流包含有序的多个网页地址),即基于该网页地址流中包含的有序的多 个网页地址的顺序,依次执行该多个网页地址中的每一个网页地址,用以获 取从所述半封闭数据环境的服务器返回的对应网页的数据文件,其中,该数 据文件与位于所述有序的多个网页地址中的最后一个网页地址行相对应。
对于一些对安全性要求较高的数据环境,往往会要求访问方携带会话令 牌才可以执行访问,因此,根据本发明的实施例,可以在登录成功后,进一 步获取由所述半封闭数据环境的服务器分配的会话令牌,并携带该会话令牌 对所述半封闭数据环境中的预设网页地址进行访问。
在步骤S106处,根据预设的与所述网页相对应的数据位置信息,从所述 数据文件中将相应位置的数据提取出来。
对通过所述客户端浏览器访问获得的网页数据文件进行分析,根据预设 的与在所述网页中要获取的数据相对应的文件标签信息,在所述数据文件中 定位相匹配的标签的位置。
尽管可以通过对获得的数据文件进行自动分析获取与感兴趣的数据相对 应的文件标签信息,但出于效率和准确性考虑,根据本发明实施例,可以事 先在数据库中存储针对特定网页地址的特定的文件标签信息,该标签代表了 特定的数据在网页数据文件中的位置。
例如,可以在数据库中存储:1、要访问的网络访问地址: www.facebook.com;2、相应的预设登录信息:账号:mike;密码:123;3、 存在感兴趣数据的需要访问的网页地址:1.facebook.com;4、在该网页的数 据文件中感兴趣的数据对应的标签信息为第2个<a>标签。
当本发明实施例运作时,可以首先从数据库获取要访问的网络访问地址, 然后根据相应的登录信息执行登录,登录成功后可控制浏览器直接访问预设 的网页地址,从获得的网页数据文件中根据预设的文件标签信息定位相匹配 的标签位置。
根据所述标签位置,将与该标签位置相对应的数据提取出来。
所述定位相匹配的标签的位置,目的在于将与该标签位置相对应的数据 提取出来展示给用户,所以,当在所述数据文件中定位相匹配的标签的位置 后,便可以提取与该标签位置相对应的数据。
在提取数据时,数据文件中的某些数据可以直接提取出来并展示给用户, 例如,文字内容。
但是,在数据文件中还可能包括脚本数据(如,JS代码),由于脚本数 据是可执行文件,所以不能直接提取数据,在这种情况下,可以通过其他方 式达到提取数据的目的,例如先运行与该标签位置相对应的脚本数据以获得 该脚本数据的运行结果,并将运行结果数据提取出来。
本发明还提供了一种用于半封闭数据环境下的数据搜索装置,图2所示 为本发明实施例的用于半封闭数据环境下的数据搜索装置的模块图。
根据本发明的装置,可以包括登录模块210、访问模块230、提取模块 250。
登录模块210,用于构建一个客户端浏览器,通过该浏览器,使用预设 登录信息登录访问所述半封闭数据环境的网络访问地址。
预先构建一个数据库,用于记录所述半封闭数据环境的网络访问地址、 可登录该数据环境的预设登录信息、在该数据环境中需要访问的网页地址, 以及与在所述网页中要获取的数据相对应的文件标签信息。
利用预设的登录信息,登录模块210可以获得该半封闭数据环境的访问 权限。
访问模块230,用于所述客户端浏览器在登录成功后对所述半封闭数据 环境中的预设网页地址进行访问,并获取从所述半封闭数据环境的服务器返 回的对应网页的数据文件。
对于要求访问方携带会话令牌才可以进行访问的半封闭数据环境,当登 录模块210成功登录该半封闭数据环境的服务器后,该服务器会发放会话令 牌,访问模块230获取由所述半封闭数据环境的服务器分配的会话令牌,并 携带该会话令牌对该半封闭数据环境中的预设网页地址进行访问。
提取模块250,用于根据预设的与所述网页相对应的数据位置信息,从 所述数据文件中将相应位置的数据提取出来。
在该提取模块250中还包括定位单元(未示出)和提取单元(未示出)。
其中,定位单元用于对通过所述客户端浏览器访问获得的网页数据文件 进行分析,根据预设的与在所述网页中要获取的数据相对应的文件标签信息, 在所述数据文件中定位相匹配的标签的位置。
提取单元用于根据所述标签位置,将与该标签位置相对应的数据提取出 来。
若在数据文件中包含脚本数据,则所述提取模块250中的提取单元运行 与该标签位置相对应的脚本数据,并将运行结果数据提取出来。
本发明通过预设并记录半封闭数据环境中的有用数据的方式,在半封闭 数据环境中,定位并提取数据,最终将该数据展现给用户,从而提高了数据 搜索效率、扩大了数据搜索范围,同时也提高了数据搜索结果的准确性。
由于图2所描述的本发明的装置所包括的各个模块的具体实施方式与本 发明的方法中的步骤的具体实施方式是相对应的,由于已经对图1进行了详 细的描述,所以为了不模糊本申请,在此不再对各个模块的具体细节进行描 述。
以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域 的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则 之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求 范围之内。

Claims (10)

  1. 一种用于半封闭数据环境下的数据搜索方法,其特征在于,包括:
    构建一个客户端浏览器,通过该浏览器,使用预设登录信息登录访问所 述半封闭数据环境的网络访问地址;
    所述客户端浏览器在登录成功后对所述半封闭数据环境中的预设网页地 址进行访问,并获取从所述半封闭数据环境的服务器返回的对应网页的数据 文件;
    根据预设的与所述网页相对应的数据位置信息,从所述数据文件中将相 应位置的数据提取出来。
  2. 如权利要求1所述的方法,其特征在于,所述根据预设的与所述网页 相对应的数据位置信息,从所述数据文件中将相应位置的数据提取出来的步 骤,包括:
    对通过所述客户端浏览器访问获得的网页数据文件进行分析,根据预设 的与在所述网页中要获取的数据相对应的文件标签信息,在所述数据文件中 定位相匹配的标签的位置;
    根据所述标签位置,将与该标签位置相对应的数据提取出来。
  3. 如权利要求2所述的方法,其特征在于,所述将与该标签位置相对应 的数据提取出来的步骤,包括:运行与该标签位置相对应的脚本数据,并将 运行结果数据提取出来。
  4. 如权利要求2所述的方法,其特征在于,进一步包括:构建一数据库, 记录所述半封闭数据环境的网络访问地址、可登录该数据环境的预设登录信 息、在该数据环境中需要访问的网页地址,以及与在所述网页中要获取的数 据相对应的文件标签信息。
  5. 如权利要求1所述的方法,其特征在于,所述客户端浏览器在登录成 功后,进一步包括:获取由所述半封闭数据环境的服务器分配的会话令牌, 并携带该会话令牌对所述半封闭数据环境中的预设网页地址进行访问。
  6. 一种用于半封闭数据环境下的数据搜索装置,其特征在于,包括:
    登录模块,用于构建一个客户端浏览器,通过该浏览器,使用预设登录 信息登录访问所述半封闭数据环境的网络访问地址;
    访问模块,用于所述客户端浏览器在登录成功后对所述半封闭数据环境 中的预设网页地址进行访问,并获取从所述半封闭数据环境的服务器返回的 对应网页的数据文件;
    提取模块,用于根据预设的与所述网页相对应的数据位置信息,从所述 数据文件中将相应位置的数据提取出来。
  7. 如权利要求6所述的装置,其特征在于,所述提取模块包括:
    定位单元,用于对通过所述客户端浏览器访问获得的网页数据文件进行 分析,根据预设的与在所述网页中要获取的数据相对应的文件标签信息,在 所述数据文件中定位相匹配的标签的位置;
    提取单元,用于根据所述标签位置,将与该标签位置相对应的数据提取 出来。
  8. 如权利要求7所述的装置,其特征在于,所述提取单元,用于运行与 该标签位置相对应的脚本数据,并将运行结果数据提取出来。
  9. 如权利要求7所述的装置,其特征在于,进一步包括一数据库,用于 记录所述半封闭数据环境的网络访问地址、可登录该数据环境的预设登录信 息、在该数据环境中需要访问的网页地址,以及与在所述网页中要获取的数 据相对应的文件标签信息。
  10. 如权利要求6所述的装置,其特征在于,所述访问模块,用于获取 由所述半封闭数据环境的服务器分配的会话令牌,并携带该会话令牌对所述 半封闭数据环境中的预设网页地址进行访问。
PCT/CN2014/074409 2013-04-01 2014-03-31 一种用于半封闭数据环境下的数据搜索的方法和装置 WO2014161454A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310111969.1 2013-04-01
CN201310111969.1A CN103218422B (zh) 2013-04-01 2013-04-01 一种用于半封闭数据环境下的数据搜索的方法和装置

Publications (1)

Publication Number Publication Date
WO2014161454A1 true WO2014161454A1 (zh) 2014-10-09

Family

ID=48816209

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2014/074409 WO2014161454A1 (zh) 2013-04-01 2014-03-31 一种用于半封闭数据环境下的数据搜索的方法和装置

Country Status (2)

Country Link
CN (3) CN103218422B (zh)
WO (1) WO2014161454A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218422B (zh) * 2013-04-01 2015-06-03 钱咸升(北京)网络科技有限公司 一种用于半封闭数据环境下的数据搜索的方法和装置
CN106897401A (zh) * 2017-02-13 2017-06-27 北京奇虎科技有限公司 一种数据存储系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008142614A1 (en) * 2007-05-24 2008-11-27 Nokia Corporation Webpage history view
CN101682638A (zh) * 2007-04-27 2010-03-24 技术两合公开有限公司 数字信息服务
CN102034178A (zh) * 2009-09-29 2011-04-27 上海艾融信息科技有限公司 一种跨机构网上支付的方法、系统和装置
CN103218422A (zh) * 2013-04-01 2013-07-24 张士益 一种用于半封闭数据环境下的数据搜索的方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315695A (zh) * 2008-07-09 2008-12-03 北京九恒星科技股份有限公司 银行信息处理方法及数据提取组件
CN101415010B (zh) * 2008-11-26 2012-07-04 涂彦晖 Web浏览装置及其操作方法
CN101876978B (zh) * 2009-04-30 2012-12-26 刘长龙 一种网站导航系统及方法
CN102880624A (zh) * 2011-07-16 2013-01-16 张文广 网站导航工具系统
CN102915360B (zh) * 2012-10-17 2016-09-28 北京奇虎科技有限公司 呈现网站的相关信息的系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101682638A (zh) * 2007-04-27 2010-03-24 技术两合公开有限公司 数字信息服务
WO2008142614A1 (en) * 2007-05-24 2008-11-27 Nokia Corporation Webpage history view
CN102034178A (zh) * 2009-09-29 2011-04-27 上海艾融信息科技有限公司 一种跨机构网上支付的方法、系统和装置
CN103218422A (zh) * 2013-04-01 2013-07-24 张士益 一种用于半封闭数据环境下的数据搜索的方法和装置

Also Published As

Publication number Publication date
CN104866533A (zh) 2015-08-26
CN104866533B (zh) 2019-02-05
CN104866532A (zh) 2015-08-26
CN104866532B (zh) 2019-08-23
CN103218422B (zh) 2015-06-03
CN103218422A (zh) 2013-07-24

Similar Documents

Publication Publication Date Title
US10560471B2 (en) Detecting web exploit kits by tree-based structural similarity search
US10447766B2 (en) Information sharing method and system
CN110309636B (zh) 一种身份认证的方法和系统
US10389698B1 (en) Technique for facilitating auto login to a website
US10212170B1 (en) User authentication using client-side browse history
WO2018053620A1 (en) Digital communications platform for webpage overlay
US9298839B2 (en) Resolving a dead shortened uniform resource locator
Nalawade et al. Forensic analysis and evidence collection for web browser activity
US9712520B1 (en) User authentication using client-side browse history
US9756058B1 (en) Detecting network attacks based on network requests
WO2013020424A1 (zh) 一种搜索方法、装置和系统
CN102065147A (zh) 一种基于企业应用系统获取用户登录信息的方法及装置
WO2017053802A1 (en) System and method for detecting whether automatic login of user credentials to a web site has succeeded
CN102710770A (zh) 一种上网设备识别方法及其实现系统
Jain et al. Finding nemo: Searching and resolving identities of users across online social networks
Pretorius et al. Attributing users based on web browser history
WO2014161454A1 (zh) 一种用于半封闭数据环境下的数据搜索的方法和装置
CN108322420A (zh) 后门文件的检测方法和装置
Upadhyay et al. Web usage mining has pattern discovery
KR102214990B1 (ko) 북마크관리 및 정보검색 서비스 제공시스템 및 이를 이용한 북마크관리 및 정보검색 서비스 제공방법
US20130230248A1 (en) Ensuring validity of the bookmark reference in a collaborative bookmarking system
David et al. A two-stage model for social network investigations in digital forensics
Purohit et al. Crawling through web to extract the data from Social networking site-Twitter
CN104021143A (zh) 一种记录网页访问行为的方法及装置
CN208548922U (zh) 恶意程序发布检测系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14780309

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14780309

Country of ref document: EP

Kind code of ref document: A1