WO2019019671A1 - 网页数据处理方法、装置、计算机设备和存储介质 - Google Patents

网页数据处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
WO2019019671A1
WO2019019671A1 PCT/CN2018/080006 CN2018080006W WO2019019671A1 WO 2019019671 A1 WO2019019671 A1 WO 2019019671A1 CN 2018080006 W CN2018080006 W CN 2018080006W WO 2019019671 A1 WO2019019671 A1 WO 2019019671A1
Authority
WO
WIPO (PCT)
Prior art keywords
webpage data
data
webpage
configuration database
split
Prior art date
Application number
PCT/CN2018/080006
Other languages
English (en)
French (fr)
Inventor
艾明
李武奇
Original Assignee
深圳壹账通智能科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳壹账通智能科技有限公司 filed Critical 深圳壹账通智能科技有限公司
Publication of WO2019019671A1 publication Critical patent/WO2019019671A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/38Creation or generation of source code for implementing user interfaces

Definitions

  • the application relates to a webpage data processing method, device, computer device and computer storage medium.
  • the webpage data crawled from the webpage to be crawled is presented to the user in a unified form, but when some webpage data changes appear in some webpages to be crawled, the unified webpage data cannot be directly obtained.
  • the prompt information of the webpage data may cause display errors of the webpage to be displayed.
  • a webpage data processing method, apparatus, computer device, and storage medium are provided.
  • a webpage data processing method includes:
  • the first webpage data is split to obtain split data
  • a webpage data processing apparatus includes:
  • a crawling module for crawling the first webpage data of the webpage
  • a first matching module configured to match the first webpage data with the second webpage data stored in the configuration database, where the second webpage data and the corresponding prompting information are stored in the configuration database;
  • a splitting module configured to: when the first webpage data is not successfully matched with the second webpage data stored in the configuration database, split the first webpage data to obtain split data;
  • a second matching module configured to match the split data with the second webpage data stored in the configuration database
  • a first marking module configured to: when the split data is successfully matched with the second webpage data stored in the configuration database, mark the second stored in the configuration database that is successfully matched with the split data Web page data;
  • the first returning module is configured to return the prompt information corresponding to the marked second webpage data to the webpage.
  • a computer device comprising a memory and one or more processors having stored therein computer readable instructions, the computer readable instructions being executed by one or more of the processors such that the one or more The processors perform the following steps:
  • the first webpage data is split to obtain split data
  • One or more non-transitory computer readable storage mediums storing computer readable instructions, when executed by one or more processors, cause one or more processors to perform the steps of:
  • the first webpage data is split to obtain split data
  • FIG. 1 is a diagram of an application scenario of a webpage data processing method according to one or more embodiments.
  • FIG. 2 is a flow diagram of a method of processing web page data in accordance with one or more embodiments.
  • FIG. 3 is a flow chart of step S210 in the embodiment shown in FIG. 2.
  • FIG. 4 is a flow diagram of the steps of updating a configuration database in accordance with one or more embodiments.
  • FIG. 5 is another flow chart of step S210 in the embodiment shown in FIG. 2.
  • FIG. 6 is a flow diagram of association steps in accordance with one or more embodiments.
  • FIG. 7 is a block diagram of a web page data processing apparatus in accordance with one or more embodiments.
  • FIG. 8 is a block diagram of a computer device in accordance with one or more embodiments.
  • an application scenario diagram of a webpage data processing method including a webpage data processing platform and a user terminal.
  • the user terminal may be a laptop computer, a desktop computer, a mobile phone, or a tablet computer, and an APP may be set on the user terminal.
  • Application, mobile phone software, etc., the APP can embed the corresponding webpage, such as a webpage about a bank or a webpage about a mailbox
  • the webpage data processing platform is provided with a configuration database
  • the webpage data processing platform can crawl into the user terminal to embed the APP.
  • the first webpage data on the webpage matches the first webpage data with the second webpage data stored in the configuration database, and then selects the prompt information corresponding to the second webpage data, and sends the prompt information to the APP of the user terminal.
  • a flowchart of a webpage data processing method is provided.
  • the embodiment is applied to the webpage data processing platform in FIG. 1 to illustrate the webpage data processing platform.
  • a webpage data processing program is run thereon, and the webpage data processing method is implemented by the webpage data processing program.
  • the method comprises the following steps:
  • the webpage data processing platform is provided with a web crawling program, and the webpage data processing platform can crawl the first webpage data from the webpage embedded in the APP of the user terminal through the webpage crawling program.
  • the first webpage data refers to content and the like existing on the webpage embedded in the APP of the user terminal; specifically, the first webpage data may be text data, image data, digital data or related error information data, etc.; for example, when embedded into When there is an error in the webpage in the APP, if the user name entered by the user is wrong, the webpage displays an error message of "user name error", and the error information of the user name error is the first webpage data.
  • S204 Match the first webpage data with the second webpage data stored in the configuration database, and store the prompt information corresponding to the second webpage data in the configuration database.
  • the configuration database refers to a database in which the second web page data and the prompt information corresponding to the second web page data are stored.
  • the second web page data refers to content that is pre-stored in the configuration database and may exist on the web page embedded in the APP; specifically, the second web page data may be text data, picture data, digital data or related error information data, and the like.
  • the prompt information corresponding to the second webpage data may be prompt information associated with the corresponding second webpage data, and the prompting information may be displayed on a webpage embedded in the APP, for example, the second webpage data may be “username” "Input error", the corresponding prompt message is "Please re-enter the user name”.
  • the webpage data processing platform matches the acquired first webpage data embedded in the APP of the user terminal with the second webpage data stored in the configuration database, and then selects corresponding prompt information to be sent to the webpage embedded in the APP of the user terminal for display. .
  • the webpage data processing platform matches the first webpage data that is crawled with the second webpage data stored in the configuration database one by one, and if the first webpage data is not successfully matched with the second webpage data stored in the configuration database, The first webpage data that is crawled is split to obtain split data. For example, if the first webpage data is “username error”, and the second webpage data of the corresponding “username error” is not matched in the configuration database, the “user name error” of the first webpage data is split into “users”. Name “and "error”, get the "user name” and "error” two split data. It should be noted that, when splitting the first webpage data, the splitting logic set in advance may be acquired, and the first webpage data is split according to the preset splitting logic.
  • the splitting logic may be to split the first webpage data into a plurality of standard terms
  • the standard terminology refers to a term having independent semantics, which is not affected by the text after or before it, and only the text of the term content is Can determine the complete computer professional concept, such as the first page data "verification code input error” according to each split data has independent semantics, and each split data is split for the shortest, get “verification code” "Input” "Error” three split data.
  • the split data is matched one by one with the second webpage data stored in the configuration database.
  • the first webpage data "username error” is split to obtain the split data "username” and “error”
  • the "username” and “error” are matched one by one with the second webpage data stored in the configuration database.
  • through the "user name” may match three second web page data, "user name input error”, “user name case mixed” "does not exist the user name”, and then through the "error” and the three second
  • a second webpage data that is, "user name input error” can be obtained.
  • the split data matches the second webpage data stored in the configuration database one by one
  • the second webpage data in the configuration database is successfully matched
  • the second webpage data with the matching success is marked.
  • the split data "username” and "error” after splitting the first webpage data are matched with the second webpage data stored in the configuration database one by one, and the "username” and “error” are sequentially followed by the second webpage.
  • the data is matched, which can be successfully matched with the “user name input error” in the second webpage data, and the remaining second webpage data is not successfully matched with the split data, and the “user name input error in the second webpage data is input. "Mark.
  • each type of second webpage data may be correspondingly configured with a corresponding zookeeper (distributed)
  • the coordination service of the system is the master node.
  • Each second page data of the zookeeper master node corresponds to a zookeeper child node.
  • the corresponding zookeeper child node may be marked.
  • the data of the "error" class in the second webpage data is uniformly stored under the corresponding zookeeper main node, and the data of the "error" class is corresponding to each second webpage data such as "the user name is incorrect" and "the verification code is incorrect".
  • the zookeeper child node with "user name error” may be marked.
  • the webpage data processing platform returns the prompt information corresponding to the marked second webpage data to the webpage embedded in the APP on the user terminal according to the mark of the second webpage data stored in the configuration database. For example, the split data "user name” and “error” are matched with the second webpage data one by one, which can be successfully matched with the "user name input error” stored in the second webpage data, and the "user name input error” is marked. According to the markup, the webpage data processing platform returns the prompt message "Please re-enter the user name" of "user name input error” to the webpage embedded in the APP on the user terminal.
  • the webpage data processing platform crawls to the first webpage data on the webpage embedded in the APP of the user terminal, when the first webpage data changes to match the second webpage data stored in the configuration database, Separating the first webpage data, matching the second webpage data stored in the configuration database according to the split data, and marking the successfully matched second webpage data, thereby returning the related prompt information according to the markup
  • the entire code is not required to be rewritten, the development amount is greatly reduced, and the applicability is strong.
  • Step S210 is to match the split data with the second webpage data stored in the configuration database.
  • the step of marking the second webpage data stored in the configuration database that is successfully matched with the split data may include:
  • the split data when the split data is matched one by one with the second webpage data stored in the configuration database, if at least two second webpage data stored in the configuration database are matched, the calculation is stored in each of the configuration databases.
  • the split data matches the matching rate of the successfully succeeded second webpage data and the corresponding split data.
  • the matching ratio may be calculated by using a ratio of the number of characters in the first webpage data to the number of characters successfully matched in the second webpage data to the total number of characters in the second webpage data, for example, the split obtained after the first webpage data is split.
  • the data is "user name” and "error". When the "user name input error” or "user name case input error” is successfully matched, the "user name error” and the "user name in the second webpage data" are calculated.
  • the matching error of the input error is 71%, and the matching rate of the "user name error" and the "user name case input error” of the second web page data is 50%.
  • the first webpage data may be split into different numbers to obtain different numbers of split data, and each split data is sequentially matched with the second webpage data stored in the configuration database, according to the actual split.
  • a plurality of second webpage data can be matched; when the matching ratio is calculated for the split data and the second webpage data, the matching ratio can be calculated by matching the characters.
  • S304 Mark the second webpage data stored in the configuration database with the highest matching rate and the matching of the split data.
  • the matching rate of the calculated “user name error” and the “user name input error” in the second webpage data is 71%, and the “user name error” is calculated and the second webpage data is calculated.
  • the matching rate of "user name case input error” is 50%, and since 71% is greater than 50%, the matched second data of "user name input error" is marked.
  • the split data is obtained after splitting the first webpage data, and the matching with the plurality of second webpage data is successful, calculating the second webpage data and the corresponding splitting that are successfully matched with the split data.
  • the matching rate of the data is divided, and the second webpage data with the highest matching rate is marked, and the corresponding matching rate is calculated to mark the second webpage data with the largest matching rate, the matching is accurate, the marking is accurate, and the entire code is not required to select an appropriate matching.
  • Successful second page data to improve work efficiency.
  • the update configuration database step may be performed after step S206 in the embodiment shown in FIG. 2, that is, when the first webpage data is not When the second webpage data stored in the configuration database is successfully matched, the step of splitting the first webpage data to obtain the split data is performed, and the step of updating the configuration database may include:
  • S402 Record the number of crawls of the first webpage data that has not been successfully matched with the second webpage data stored in the configuration database.
  • the number of times the first webpage data is crawled is recorded. For example, when the first webpage data “username error” crawled by the webpage data processing platform matches the second webpage data stored in the configuration database, if no matching is successful, the record crawls the first webpage data “user” The number of times the error is "1". If the first page data is "user name error” and the first page "user name error” matches the second web page data stored in the configuration database, the match is not successful. , the number of times the record crawled the "username error” plus 1 is 2.
  • the webpage data processing platform climbs to the first webpage data and does not successfully match the second webpage data in the configuration database, the number of crawling times of receiving the first webpage data is recorded, when the number of crawling times exceeds a preset value. If the first webpage data and the prompt information matching the first webpage data need to be updated into the configuration database, if the split data obtained by splitting the first webpage is successfully matched with the second webpage data, The prompt information corresponding to the second webpage data is used as the prompt information matching the first webpage data.
  • the number of crawls receiving the first webpage data “username error” is recorded, when the number of crawls is When the preset value exceeds 5 times, it is considered that the first webpage data "user name error” and the prompt information of the first webpage data "user name error” need to be updated into the configuration library, according to the "user name error” Splitting the split data "user name” and "error”, if the split data is successfully matched with the second webpage data "user name input error", the second webpage data "user name input error” prompt information is obtained. Please re-enter the user name as the prompt message of the first webpage data "user name error”.
  • the preset value may also be 3 times, 7 times, or 10 times, etc., if the split data obtained by splitting the first webpage data is successfully matched with at least two second webpage data, the calculation is performed.
  • the matching information of the second webpage data with the highest matching rate is selected as the prompt information of the unsplit first webpage data.
  • S406 Update the first webpage data and the prompt information matching the first webpage data to the configuration database.
  • the webpage data processing platform updates the first webpage data that needs to be stored and the prompt information that matches the first webpage data to the configuration database, as the new second webpage data, to facilitate subsequent matching of the same first webpage data. For example, if the prompt information corresponding to the first webpage data “user name error” is “Please re-enter the user name”, the first webpage data “user name error” and the corresponding prompt information “please re-enter the user”. The name is updated to the configuration database as the new second page data in the configuration database.
  • the first webpage data and the prompt information matching the first webpage data can be directly updated to the crawling times of the first webpage data that is not successfully matched with the second webpage data stored in the configuration database.
  • the configuration database it does not require excessive manual operation and maintenance, providing work efficiency and saving manpower.
  • Step S210 that is, when the split data matches the data stored in the configuration database, the flag is
  • the step of splitting the data to match the data stored in the successful configuration database may further include:
  • S502 Receive an adjustment instruction of the configuration database when the split data is successfully matched with the at least two second webpage data stored in the configuration database.
  • the split data is obtained, and when the split data and the second webpage data stored in the configuration database have at least two matching successes, It is considered that the configuration database can be directly adjusted, so that the webpage data processing platform receives the adjustment instruction to the configuration database.
  • the split data obtained after splitting the first webpage data is “user name” and “error”, and when it is successfully matched with “user name input error” or “user name case input error” respectively, it is considered that it can be directly Adjusting the configuration database, the webpage data processing platform receives the adjustment instruction of the configuration database.
  • S504 Acquire, according to the adjustment instruction of the configuration database, the prompt information that matches the split data of the first webpage data as the prompt information that matches the first webpage data.
  • the webpage data platform receives the adjustment instruction to the configuration database, the second webpage data that is successfully matched with the split data is acquired, and the prompt information corresponding to the second webpage data is obtained, so that the prompt information is considered to be the first
  • the webpage data is split and the split data obtained by the split data is the most matching prompt information, and serves as the prompt information that matches the first webpage data.
  • the split data obtained after splitting the first webpage data is “user name” and “error”, and when the matching with “user name input error” or “user name case input error” is successful respectively, the user can Inputting an adjustment instruction to the webpage data processing platform, and associating "user name error” with "user name input error”, so that the webpage data processing platform obtains the "user name input error” prompt message "please re-enter the user name", The prompt message "Please re-enter the user name” is used as the prompt information of the first webpage data "user name error”.
  • S506 Update the first webpage data and the prompt information matching the first webpage data to the configuration database as the new second webpage data and mark the new second webpage data.
  • the first webpage data and the obtained prompt information matching the first webpage data are updated in a configuration database as new second webpage data in the configuration database, and the new second webpage is The data is marked.
  • the first webpage data “user name error” is updated with the obtained prompt information “Please re-enter the user name” matching the first webpage data “user name error” in the configuration database as the configuration database.
  • the second webpage data is tagged, and the second webpage data is marked to facilitate sending the prompt information corresponding to the new second webpage data to the webpage embedded in the APP of the user terminal.
  • the adjustment instruction may be received as needed, and the matched prompt information is directly updated.
  • the matching time is saved, the configuration database is updated in time, and the applicability is strong.
  • a flowchart of an association step may be performed, which may be performed after step S204 in the embodiment shown in FIG. 2, step S204, that is, the first webpage data and the configuration database.
  • the second webpage data stored in the matching is performed, and the step of storing the second webpage data and the corresponding prompting information in the configuration database is performed, and the associating step may include:
  • the webpage data processing platform crawls the first webpage data of the webpage embedded in the APP of the user terminal, the first webpage data is matched with the second webpage data, and the first webpage data and the second webpage data are used.
  • the second webpage data that successfully matches the first webpage data is marked.
  • the webpage data processing platform obtains the first webpage data as “password error”, and when it successfully matches the second webpage data in the configuration database, the second webpage data is marked.
  • the prompt information corresponding to the second webpage data is obtained according to the marking of the second webpage data, and the prompting information is the prompting information of the first webpage data, and the prompting information is returned to the APP embedded in the user terminal.
  • Web page For example, if the first webpage data “password error” is successfully matched with the second webpage data “password error” in the configuration database, the second webpage data “password error” is obtained according to the mark of the second webpage data “password error”.
  • the prompt message is “Please re-enter the password”, and the prompt information “Please re-enter the password” is returned as the prompt information of the first webpage data to the webpage embedded in the APP of the user terminal.
  • the prompt information of the second webpage data is directly obtained as the prompt information of the first webpage, and the prompt information is returned.
  • the first webpage data for different webpages can be directly matched in the configuration database, and if the matching is successful, the related prompt information can be directly obtained, and no independent development is required for each webpage.
  • the code reduces the amount of development, the matching efficiency is high, and the applicability is strong.
  • another website data processing method is provided. This embodiment is exemplified by applying the method to a website data processing platform.
  • the website data processing platform crawls to the first webpage data embedded in the webpage in the user terminal, where the first webpage data refers to content or information and the like on the webpage that can be embedded in the user terminal; specifically, the The first webpage data may be text data, image data, digital data or error prompt information data, for example, when there is an error in the webpage embedded in the APP, if the user name entered by the user is wrong, the webpage displays “user name error”.
  • the error message, the error message of the username is the first page data.
  • the configuration database stores a corresponding second webpage data, and a database of prompt information corresponding to the second webpage data, where the second webpage data refers to The webpage related content or information stored in the configuration database, where the second webpage data may be text data, image data, digital data or related error information data, etc., when the first webpage data and the second webpage data are successfully matched, Marking the second webpage data in the configuration database that matches the first webpage data, and returning the prompting information corresponding to the marked second webpage data to the webpage.
  • the first webpage data and the second webpage data are not successfully matched, the first webpage data is split to obtain split data, and the split data is matched with the second webpage data stored in the configuration database, when the split data is When the matching of the second webpage data is successful, the second webpage data that is successfully matched with the split data is marked, and the prompt information corresponding to the marked second webpage data is returned to the webpage.
  • the adjustment instruction for adjusting the configuration database may be received, and the prompt information matching the split data of the first webpage data is obtained according to the adjustment instruction of the configuration database as The first webpage data matches the prompt information, and the first webpage data and the prompt information matching the first webpage data are updated to the configuration database as the new second webpage data and the new second webpage data is marked, and the marked The prompt information corresponding to the new second webpage data is returned to the webpage; or if the split data is successfully matched with the at least two second webpage data, it may also be calculated by calculating each configuration database that is successfully matched with the split data.
  • the matching rate of the second webpage data is marked with the second webpage data stored in the configuration database with the highest matching rate and the matching of the split data, and the prompt information corresponding to the marked new second webpage data is returned to the user terminal.
  • the number of crawls of the first webpage data that has not been successfully matched with the second webpage data is recorded.
  • the prompt information matching the split data of the first webpage data is acquired as the first
  • the prompt information matching the webpage data updates the first webpage data and the prompt information matching the first webpage data to the configuration database.
  • the data stored in the configuration database may be directly marked; or, when the second webpage data is stored in the configuration database, each type of second webpage data may be correspondingly established.
  • the primary node of the zookeeper (coordination service of the distributed system) each of the second webpage data corresponding to the zookeeper main node has a zookeeper child node, and when marking the data, the corresponding zookeeper child node may be marked in the above embodiment.
  • the first webpage data of the webpage differently embedded in the user terminal crawled by the webpage data processing platform may be matched with the second webpage data, and if the matching is unsuccessful, the first webpage data may be split to obtain the split data.
  • the prompt information may also calculate the matching rate, select the most suitable second webpage data, and obtain corresponding prompt information.
  • the matching is accurate, the prompt information is accurate, and the configuration database can be directly adjusted according to the adjustment instruction of the configuration database, the matching time is reduced, the applicability is strong, and the number of crawls according to the first webpage data that does not match the second webpage data is additionally obtained. , can directly update the configuration database, without excessive manual operation and maintenance, improve work efficiency.
  • FIGS. 2-6 are sequentially displayed as indicated by the arrows, these steps are not necessarily performed in the order indicated by the arrows. Except as explicitly stated herein, the execution of these steps is not strictly limited, and the steps may be performed in other orders. Moreover, at least some of the steps in FIGS. 2-6 may include a plurality of sub-steps or stages, which are not necessarily performed at the same time, but may be executed at different times, these sub-steps or stages The order of execution is not necessarily performed sequentially, but may be performed alternately or alternately with at least a portion of other steps or sub-steps or stages of other steps.
  • the webpage data processing apparatus 700 includes:
  • the crawling module 710 is configured to crawl the first webpage data of the webpage.
  • the first matching module 720 is configured to match the first webpage data with the second webpage data stored in the configuration database, and store the second webpage data and the corresponding prompting information in the configuration database.
  • the splitting module 730 is configured to split the first webpage data to obtain split data when the first webpage data is not successfully matched with the second webpage data stored in the configuration database.
  • the second matching module 740 is configured to match the split data with the second webpage data stored in the configuration database.
  • the first marking module 750 is configured to mark, when the split data matches the second webpage data stored in the configuration database, the second webpage data stored in the configuration database that successfully matches the split data.
  • the first returning module 760 is configured to return the prompt information corresponding to the marked second webpage data to the webpage.
  • the marking module 750 can include:
  • a calculating unit configured to calculate, when the split data is successfully matched with the at least two second webpage data stored in the configuration database, a matching rate of the second webpage data stored in each configuration database that is successfully matched with the split data.
  • a marking unit for marking data stored in a configuration database with the highest matching rate and successfully matching the split data is a marking unit for marking data stored in a configuration database with the highest matching rate and successfully matching the split data.
  • the webpage data processing apparatus 700 may further include:
  • a recording module configured to record the number of crawls of the first webpage data that has not been successfully matched with the second webpage data stored in the configuration database.
  • the obtaining module is configured to acquire, when the number of crawling times exceeds the preset value, the prompt information that matches the split data of the first webpage data as the prompt information that matches the first webpage data.
  • an update module configured to update the first webpage data and the prompt information matching the first webpage data to the configuration database.
  • the marking module 750 can further include:
  • the adjustment instruction receiving unit is configured to receive an adjustment instruction of the configuration database when the split data matches the at least two second web page data stored in the configuration database.
  • the prompt information acquiring unit is configured to obtain, according to the adjustment instruction of the configuration database, the prompt information that matches the split data of the first webpage data as the prompt information that matches the first webpage data.
  • an updating unit configured to update the first webpage data and the prompt information matching the first webpage data to the configuration database as the new second webpage data and mark the new second webpage data.
  • the webpage data processing apparatus 700 may further include:
  • the second marking module is configured to mark the second webpage data in the configuration database that matches the first webpage data when the first webpage data is successfully matched with the second webpage data stored in the configuration database.
  • the second returning module is configured to return the prompt information corresponding to the second webpage data marked in the configuration database to the webpage.
  • a computer device which may be a server, and its internal structure diagram may be as shown in FIG.
  • the computer device includes a processor, memory, network interface, and database connected by a system bus.
  • the processor of the computer device is used to provide computing and control capabilities.
  • the memory of the computer device includes a non-volatile storage medium, an internal memory.
  • the non-volatile storage medium stores an operating system, computer readable instructions, and a database.
  • the internal memory provides an environment for operation of an operating system and computer readable instructions in a non-volatile storage medium.
  • the database of the computer device is used to store web page data processing data.
  • the network interface of the computer device is used to communicate with an external terminal via a network connection.
  • the computer readable instructions are executed by a processor to implement a web page data processing method.
  • FIG. 8 is only a block diagram of a part of the structure related to the solution of the present application, and does not constitute a limitation of the computer device to which the solution of the present application is applied.
  • the specific computer device may It includes more or fewer components than those shown in the figures, or some components are combined, or have different component arrangements.
  • a computer device comprising a memory and one or more processors, the memory storing computer readable instructions, the computer readable instructions being executed by the processor, causing the one or more processors to perform the steps of: crawling the webpage A web page of data.
  • the first webpage data is matched with the second webpage data stored in the configuration database, and the second webpage data and the corresponding prompting information are stored in the configuration database.
  • the first webpage data is split to obtain split data.
  • the split data matches the second webpage data stored in the configuration database, the second webpage data stored in the configuration database that matches the split data is marked. And returning the prompt information corresponding to the marked second webpage data to the webpage.
  • the processor executes the computer readable instructions, the following steps are further implemented: when the split data matches the at least two second webpage data stored in the configuration database, each of the calculations successfully matches the split data. The matching rate of the second webpage data stored in the configuration database. And marking the second webpage data stored in the configuration database with the highest matching rate and the matching of the split data.
  • the processor when executing the computer readable instructions, further implements the step of recording the number of crawls of the first web page data that did not match the second web page data stored in the configuration database.
  • the prompt information matching the split data of the first webpage data is acquired as the prompt information matching the first webpage data. And updating the first webpage data and the prompt information matching the first webpage data to the configuration database.
  • the processor when executing the computer readable instructions, further implements the step of receiving an adjustment instruction of the configuration database when the split data matches the at least two second web page data stored in the configuration database.
  • the prompt information matching the split data of the first webpage data is acquired as the prompt information matching the first webpage data according to the adjustment instruction of the configuration database. And updating the first webpage data and the prompt information matching the first webpage data to the configuration database as the new second webpage data and marking the new second webpage data.
  • the processor executes the computer readable instructions, the following steps are further implemented: when the first webpage data matches the second webpage data stored in the configuration database, the configuration matching the first webpage data is performed. The second web page data in the database is marked. And returning the prompt information corresponding to the second webpage data marked in the configuration database to the webpage.
  • one or more non-volatile storage media having computer readable instructions stored by one or more processors are provided to cause one or more The processor performs the following steps: crawling the first webpage data of the webpage.
  • the first webpage data is matched with the second webpage data stored in the configuration database, and the second webpage data and the corresponding prompting information are stored in the configuration database.
  • the first webpage data is split to obtain split data.
  • Match the split data with the second web page data stored in the configuration database.
  • the split data matches the second webpage data stored in the configuration database
  • the second webpage data stored in the configuration database that matches the split data is marked. And returning the prompt information corresponding to the marked second webpage data to the webpage.
  • the following steps may be further implemented: calculating each of the splits when the split data matches the at least two second webpage data stored in the configuration database.
  • the data matches the matching rate of the second webpage data stored in the successful configuration database.
  • the computer readable instructions when executed by the processor, may further implement the step of recording the number of crawls of the first web page data that did not match the second web page data stored in the configuration database.
  • the prompt information matching the split data of the first webpage data is acquired as the prompt information matching the first webpage data. And updating the first webpage data and the prompt information matching the first webpage data to the configuration database.
  • the computer readable instructions when executed by the processor may further implement the step of: receiving an adjustment instruction of the configuration database when the split data matches the at least two second web page data stored in the configuration database. .
  • the prompt information matching the split data of the first webpage data is acquired as the prompt information matching the first webpage data according to the adjustment instruction of the configuration database. And updating the first webpage data and the prompt information matching the first webpage data to the configuration database as the new second webpage data and marking the new second webpage data.
  • the following steps may be further implemented: when the first webpage data matches the second webpage data stored in the configuration database, the data is compared with the first webpage data. The second web page data in the matching configuration database is marked. And returning the prompt information corresponding to the second webpage data marked in the configuration database to the webpage.
  • Non-volatile memory can include read only memory (ROM), programmable ROM (PROM), electrically programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), or flash memory.
  • Volatile memory can include random access memory (RAM) or external cache memory.
  • RAM is available in a variety of formats, such as static RAM (SRAM), dynamic RAM (DRAM), synchronous DRAM (SDRAM), double data rate SDRAM (DDRSDRAM), enhanced SDRAM (ESDRAM), synchronization chain.
  • SRAM static RAM
  • DRAM dynamic RAM
  • SDRAM synchronous DRAM
  • DDRSDRAM double data rate SDRAM
  • ESDRAM enhanced SDRAM
  • Synchlink DRAM SLDRAM
  • Memory Bus Radbus
  • RDRAM Direct RAM
  • DRAM Direct Memory Bus Dynamic RAM
  • RDRAM Memory Bus Dynamic RAM

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种网页数据处理方法,包括:爬取网页的第一网页数据;将第一网页数据与配置数据库中存储的第二网页数据进行匹配;当第一网页数据未与第二网页数据匹配成功时,则将第一网页数据进行拆分得到拆分数据;当拆分数据与第二网页数据匹配成功时,则标记与拆分数据匹配成功的配置数据库中存储的第二网页数据;将标记的第二网页数据对应的提示信息返回至网页,还包括网页数据处理装置、计算机设备及计算机存储介质。

Description

网页数据处理方法、装置、计算机设备和存储介质
本申请要求于2017年7月27日提交中国专利局,申请号201710626242.5,申请名称为“网页数据处理方法、装置、计算机设备及计算机存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及一种网页数据处理方法、装置、计算机设备及计算机存储介质。
背景技术
随着互联网的发展,从网络上获取信息已成为人们生活中重要的获取信息途径,随着网络上多元化信息的增多,用户对网页上显示的信息需求也更个性化,通常采用网络爬取系统在互联网上的待爬取网页中爬取所需数据,进而使得展现给用户的网页可以提供更精确的数据以及更及时的更新。
一般地,我们希望将从待爬取网页中爬取的网页数据以统一的形式呈现给用户,但是当一些待爬取网页中出现有网页数据的更改时,根据网页数据无法直接获取到统一的网页数据的提示信息,从而导致待显示网页会出现显示错误,针对不同的网站以及不同的网页数据,都需要开发整体的代码,使得输出与网页数据对应的提示信息,再进行测试运维等一整套流程,导致开发工作量大,适用性不强。
发明内容
根据本申请公开的各种实施例,提供一种网页数据处理方法、装置、计算机设备及存储介质。
一种网页数据处理方法,包括:
爬取网页的第一网页数据;
将所述第一网页数据与配置数据库中存储的第二网页数据进行匹配,所述配置数据库中存储与第二网页数据对应的提示信息;
当所述第一网页数据未与所述配置数据库中存储的第二网页数据匹配成功时,则将所述第一网页数据进行拆分得到拆分数据;
将所述拆分数据与所述配置数据库中存储的第二网页数据进行匹配;
当所述拆分数据与所述配置数据库中存储的第二网页数据匹配成功时,则标记与所述与拆分数据匹配成功的所述配置数据库中存储的第二网页数据;及
将标记的第二网页数据对应的提示信息返回至所述网页。
一种网页数据处理装置,包括:
爬取模块,用于爬取网页的第一网页数据;
第一匹配模块,用于将所述第一网页数据与配置数据库中存储的第二网页数据进行匹配,所述配置数据库中存储第二网页数据和对应的提示信息;
拆分模块,用于当所述第一网页数据未与所述配置数据库中存储的第二网页数据匹配成功时,则将所述第一网页数据进行拆分得到拆分数据;
第二匹配模块,用于将所述拆分数据与所述配置数据库中存储的第二网页数据进行匹配;
第一标记模块,用于当所述拆分数据与所述配置数据库中存储的第二网页数据匹配成功时,则标记与所述与拆分数据匹配成功的所述配置数据库中存储的第二网页数据;及
第一返回模块,用于将标记的第二网页数据对应的提示信息返回至所述网页。
一种计算机设备,包括存储器和一个或多个处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被一个或多个所述处理器执行时,使得所述一个或多个处理器执行以下步骤:
爬取网页的第一网页数据;
将所述第一网页数据与配置数据库中存储的第二网页数据进行匹配,所述配置数据库中存储与第二网页数据对应的提示信息;
当所述第一网页数据未与所述配置数据库中存储的第二网页数据匹配成功时,则将所述第一网页数据进行拆分得到拆分数据;
将所述拆分数据与所述配置数据库中存储的第二网页数据进行匹配;
当所述拆分数据与所述配置数据库中存储的第二网页数据匹配成功时,则标记与所述与拆分数据匹配成功的所述配置数据库中存储的第二网页数据;及
将标记的第二网页数据对应的提示信息返回至所述网页。
一个或多个存储有计算机可读指令的非易失性计算机可读存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:
爬取网页的第一网页数据;
将所述第一网页数据与配置数据库中存储的第二网页数据进行匹配,所述配置数据库中存储与第二网页数据对应的提示信息;
当所述第一网页数据未与所述配置数据库中存储的第二网页数据匹配成功时,则将所述第一网页数据进行拆分得到拆分数据;
将所述拆分数据与所述配置数据库中存储的第二网页数据进行匹配;
当所述拆分数据与所述配置数据库中存储的第二网页数据匹配成功时,则标记与所述与拆分数据匹配成功的所述配置数据库中存储的第二网页数据;及
将标记的第二网页数据对应的提示信息返回至所述网页。
本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为根据一个或多个实施例中网页数据处理方法应用场景图。
图2为根据一个或多个实施例中网页数据处理方法的流程图。
图3为图2所示实施例中步骤S210的流程图。
图4为根据一个或多个实施例中更新配置数据库步骤的流程图。
图5为图2所示实施例中步骤S210的另一流程图。
图6为根据一个或多个实施例中关联步骤的流程图。
图7为根据一个或多个实施例中网页数据处理装置的框图。
图8为根据一个或多个实施例中计算机设备的框图。
具体实施方式
为了使本申请的技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本申请,并不用于限定本申请。
在详细说明根据本申请的实施例前,应该注意到的是,所述的实施例主要在于与网页数据处理方法、装置、计算机设备和计算机存储介质相关的步骤和装置组件的组合。因此,所属装置组件和方法步骤已经在附图中通过常规符号在适当的位置表示出来了,并且只示出了与理解本申请的实施例有关的细节,以免因对于得益于本申请的本领域普通技术人员而言显而易见的那些细节模糊了本申请的公开内容。
在本文中,诸如左和右,上和下,前和后,第一和第二之类的关系术语仅仅用来区分一个实体或动作与另一个实体或动作,而不一定要求或暗示这种实体或动作之间的任何实际的这种关系或顺序。术语“包括”、“包含”或任何其他变体旨在涵盖非排他性的包含,由此使得包括一系列要素的过程、方法、物品或者设备不仅包含这些要素,而且还包含没有明确列出的其他要素,或者为这种过程、方法、物品或者设备所固有的要素。
请参见图1,提供一网页数据处理方法应用场景图,包括网页数据处理平台和用户终端,该用户终端可以是手提电脑、台式电脑、手机或平板电脑等,用户终端上可以设置有某APP(Application,手机软件)等,APP中可以嵌入相应的网页,如关于银行的网页或关于邮箱的网页,该网页数据处理平台上设置有配置数据库,网页数据处理平台可以爬取到用户终端中嵌入APP的网页上的第一网页数据,将第一网页数据与配置数据库中存储的第二网页数据进行匹配,进而选取与第二网页数据对应的提示信息,并将该提示信息发送到用户终端的APP,以在嵌入至APP的网页上进行显示。
请参见图2,在其中一个实施例中,提供一种网页数据处理方法的流程图,本实施例 以该方法应用到上述图1中的网页数据处理平台中来举例说明,该网页数据处理平台上运行有网页数据处理程序,通过该网页数据处理程序来实施网页数据处理方法。该方法包括如下步骤:
S202:爬取网页的第一网页数据。
具体地,网页数据处理平台上设置有网络爬取程序,通过网页爬取程序,网页数据处理平台可以从嵌入至用户终端的APP中的网页上爬取到第一网页数据。第一网页数据是指存在于用户终端的APP中嵌入的网页上的内容等;具体地,第一网页数据可以是文字数据、图片数据、数字数据或相关错误信息数据等;例如,当嵌入至APP中的网页存在错误时,如用户输入的用户名错误时,网页展现“用户名错误”的错误信息,该用户名错误的错误信息即第一网页数据。
S204:将第一网页数据与配置数据库中存储的第二网页数据进行匹配,配置数据库中存储与第二网页数据对应的提示信息。
具体地,配置数据库是指存储有第二网页数据以及与第二网页数据相对应的提示信息的数据库。第二网页数据是指预先存储在配置数据库中的可能存在于嵌入至APP的网页上的内容;具体地,第二网页数据可以是文字数据、图片数据、数字数据或相关错误信息数据等。与第二网页数据相对应的提示信息可以是与相应的第二网页数据关联的提示信息,该提示信息可以在嵌入至APP中的网页上进行显示,例如,第二网页数据可以是“用户名输入错误”,相对应的提示信息是“请重新输入用户名”。网页数据处理平台将获取到的用户终端的APP中嵌入的第一网页数据与配置数据库中存储的第二网页数据进行匹配,进而选取相应的提示信息发送到用户终端的APP中嵌入的网页进行显示。
S206:当第一网页数据未与配置数据库中存储的第二网页数据匹配成功时,则将第一网页数据进行拆分得到拆分数据。
具体地,网页数据处理平台将爬取到的第一网页数据与配置数据库中存储的第二网页数据逐一进行匹配,若第一网页数据未与配置数据库中存储的第二网页数据匹配成功,则将爬取到的第一网页数据进行拆分,得到拆分数据。例如,第一网页数据为“用户名错误”,在配置数据库中未匹配到相应的“用户名错误”的第二网页数据,则将第一网页数据的“用户名错误”拆分为“用户名”和“错误”,得到“用户名”和“错误”两个拆分数据。需要说明的是,对第一网页数据进行拆分时,可以获取预先设置的拆分逻辑,根据该预先设置的拆分逻辑对第一网页数据进行拆分。其中,拆分逻辑可以是将第一网页数据拆分成数个标准术语,该标准术语是指具有独立语义的术语,其不受其之后或之前的文字的影响,仅通过术语内容的文字即可以确定完整的计算机专业概念,如对第一网页数据“验证码输入错误”按照使每个拆分数据具有独立的语义,且每个拆分数据为最短的进行拆分,得到“验证码”“输入”“错误”三个拆分数据。
S208:将拆分数据与配置数据库中存储的第二网页数据进行匹配。
具体地,将第一网页数据拆分后,将拆分数据逐一与配置数据库中存储的第二网页数 据进行逐一匹配。例如,将第一网页数据“用户名错误”拆分得到拆分数据“用户名”和“错误”,将“用户名”和“错误”逐一与配置数据库中存储的第二网页数据进行匹配。例如,通过“用户名”可能匹配出3个第二网页数据,“用户名输入错误”、“用户名大小写混同”“不存在该用户名”,然后通过“错误”与该3个第二网页数据进行匹配,即可以得到一个第二网页数据,即“用户名输入错误”。
S210:当拆分数据与配置数据库中存储的第二网页数据匹配成功时,则标记与拆分数据匹配成功的配置数据库中存储的第二网页数据。
具体地,当拆分数据与配置数据库中存储的第二网页数据逐一匹配时,当与配置数据库中一个第二网页数据匹配成功时,则标记该匹配成功的第二网页数据。例如,将第一网页数据经过拆分后的拆分数据“用户名”和“错误”逐一与配置数据库中存储的第二网页数据匹配,将“用户名”和“错误”依次与第二网页数据进行匹配,其可以与第二网页数据中的“用户名输入错误”匹配成功,其余的第二网页数据未与拆分数据匹配成功,则将第二网页数据中存储的“用户名输入错误”进行标记。需要说明的是,可以对配置数据库中的存储的数据直接进行标记;还可以是,配置数据库中存储第二网页数据时,每一类第二网页数据可以对应的建立有相应的zookeeper(分布式系统的协调服务)主节点,zookeeper主节点下每个第二网页数据对应的有zookeeper子节点,当对数据标记时,可以是对相应的zookeeper子节点进行标记。如第二网页数据中“错误”类的数据统一存储在相应的zookeeper主节点下,“错误”类的数据如“用户名有误”、“验证码有误”等每个第二网页数据对应有zookeeper子节点,当对“用户名错误”进行标记时,则可以是对“用户名错误”的zookeeper子节点进行标记。
S212:将标记的第二网页数据对应的提示信息返回至网页。
具体地,网页数据处理平台根据在配置数据库中存储的第二网页数据的标记,将该标记的第二网页数据对应的提示信息返回到用户终端上的APP中嵌入的网页上。例如,拆分数据“用户名”和“错误”与第二网页数据逐一匹配,其可以与第二网页数据中存储的“用户名输入错误”匹配成功,将“用户名输入错误”进行标记,根据标记,网页数据处理平台将“用户名输入错误”的提示信息“请重新输入用户名”返回到用户终端上的APP中嵌入的网页上。
上述实施例中,网页数据处理平台爬取到用户终端的APP中嵌入的网页上的第一网页数据后,当第一网页数据出现更改导致与配置数据库中存储的第二网页数据匹配时,则对第一网页数据进行拆分,根据拆分数据,与存储在配置数据库中的第二网页数据进行匹配,将匹配成功的第二网页数据进行标记,从而根据标记,将相关的提示信息返回到用户终端的APP中嵌入的网页上,当第一网页数据与第二网页数据未匹配成功时,无需重新修改编写整个代码,大大减少了开发量,适用性强。
在其中一个实施例中,可参见图3,提供图2所示实施例的中步骤S210的流程图,步骤S210,即当所述拆分数据与所述配置数据库中存储的第二网页数据匹配成功时,则 标记与所述与拆分数据匹配成功的所述配置数据库中存储的第二网页数据的步骤可以包括:
S302:当拆分数据与配置数据库中存储的至少两个第二网页数据匹配成功时,计算每一个与拆分数据匹配成功的配置数据库中存储的第二网页数据的匹配率。
具体地,当拆分数据与配置数据库中存储的第二网页数据进行逐一匹配时,若匹配到至少两个存储在配置数据库中的第二网页数据时,则计算存储在配置数据库中每一个与拆分数据匹配成功的第二网页数据和对应的拆分数据的匹配率。匹配率可以采用第一网页数据中的字符与第二网页数据中字符匹配成功的个数与第二网页数据的字符总个数的比值计算,例如,第一网页数据拆分后得到的拆分数据为“用户名”和“错误”,当分别与“用户名输入错误”或“用户名大小写输入错误”匹配成功时,则计算“用户名错误”与第二网页数据中的“用户名输入错误”的匹配率为71%,计算“用户名错误”与第二网页数据的“用户名大小写输入错误”的匹配率为50%。需要说明的是,可以将第一网页数据拆分成不同个数,从而得到不同个数的拆分数据,每个拆分数据依次与配置数据库中存储的第二网页数据进行匹配,根据实际拆分,可以匹配出多个第二网页数据;在对拆分数据与第二网页数据计算匹配率时,可以字符的匹配对匹配率进行计算。
S304:对匹配率最大的与拆分数据匹配成功的配置数据库中存储的第二网页数据进行标记。
具体地,例如上述实施例中,所计算的“用户名错误”与第二网页数据中的“用户名输入错误”的匹配率为71%,所计算“用户名错误”与第二网页数据中的“用户名大小写输入错误”的匹配率为50%,由于71%大于50%,则对该匹配出的“用户名输入错误”的第二数据进行标记。
上述实施例中,若将第一网页数据拆分后得到了拆分数据,与多个第二网页数据匹配成功时,则计算每个与拆分数据匹配成功的第二网页数据和对应的拆分数据的匹配率,对匹配率最大的第二网页数据进行标记,计算相应的匹配率从而标记匹配率最大的第二网页数据,则匹配准确,标记准确,且无需编写整个代码选取合适的匹配成功的第二网页数据,提高工作效率。
在其中一个实施例中,可参见图4,提供一更新配置数据库步骤的流程图,该更新配置数据库步骤可以在图2所示实施例中步骤S206之后执行,即在当第一网页数据未与配置数据库中存储的第二网页数据匹配成功时,则将第一网页数据进行拆分得到拆分数据的步骤之后执行,更新配置数据库的步骤可以包括:
S402:记录未与配置数据库中存储的第二网页数据匹配成功的第一网页数据的爬取次数。
具体地,当网页数据处理平台爬取到的第一网页数据与配置数据库中存储的第二网页进行匹配时,若未匹配成功,记录爬取到该第一网页数据的次数。例如,当网页数据处理平台爬取到的第一网页数据“用户名错误”与配置数据库中存储的第二网页数据进行匹配 时,若没有匹配成功,则记录爬取该第一网页数据“用户名错误”的次数为1,若再次爬取到第一网页数据为“用户名错误”,该第一网页“用户名错误”与配置数据库中存储的第二网页数据进行匹配时,未匹配成功,则记录爬取该“用户名错误”的次数加1,为2。
S404:当爬取次数超过预设值时,则获取与第一网页数据的拆分数据相匹配的提示信息作为与第一网页数据相匹配的提示信息。
具体地,当网页数据处理平台爬取到第一网页数据未与配置数据库中的第二网页数据匹配成功时,记录接收该第一网页数据的爬取次数,当爬取次数超过预设值时,则认为该第一网页数据及与该第一网页数据匹配的提示信息需更新至配置数据库中,则根据对第一网页进行拆分得到的拆分数据与第二网页数据匹配成功时,与第二网页数据相对应的提示信息作为与该第一网页数据相匹配的提示信息。例如,当第一网页数据“用户名错误”未与存储在配置数据库中的第二网页数据匹配成功,则记录接收该第一网页数据“用户名错误”的爬取次数,当该爬取次数超过预设值5次时,则认为该第一网页数据“用户名错误”及与该第一网页数据“用户名错误”的提示信息需要更新至配置库中,则根据对“用户名错误”进行拆分得到拆分数据“用户名”和“错误”,若拆分数据与第二网页数据“用户名输入错误”匹配成功,则获取第二网页数据“用户名输入错误”的提示信息“请重新输入用户名”作为该第一网页数据“用户名错误”的提示信息。需要说明的是,预设值还可以是3次、7次或10次等,对第一网页数据进行拆分后得到的拆分数据若与至少两个第二网页数据匹配成功时,则计算每个匹配成功的第二网页数据与对应的拆分数据的匹配率,选择匹配率最大的第二网页数据对应的提示信息作为未拆分的第一网页数据的提示信息。
S406:将第一网页数据以及与第一网页数据相匹配的提示信息更新至配置数据库。
具体地,网页数据处理平台将认为需要存储的第一网页数据以及与第一网页数据匹配的提示信息更新至配置数据库,作为新的第二网页数据,方便后续相同的第一网页数据进行匹配。例如,获取到第一网页数据“用户名错误”相对应的提示信息为“请重新输入用户名”,则将该第一网页数据“用户名错误”与相对应的提示信息“请重新输入用户名”更新至配置数据库中,作为配置数据库中新的第二网页数据。
上述实施例中,根据未与配置数据库中存储的第二网页数据进行匹配成功的第一网页数据的爬取次数,可将第一网页数据以及与第一网页数据相匹配的提示信息直接更新至配置数据库中,无需过多人工运维,提供工作效率,节省人力。
在其中一个实施例中,可参见图5,提供图2所示实施例中步骤S210的另一流程图,步骤S210,即当拆分数据与配置数据库中存储的数据匹配成功时,则标记与拆分数据匹配成功的配置数据库中存储的数据的步骤,还可以包括:
S502:当拆分数据与配置数据库中存储的至少两个第二网页数据匹配成功时,接收配置数据库的调整指令。
具体地,当对未与第二网页数据匹配成功的第一网页数据进行拆分后得到拆分数据, 当拆分数据与配置数据库中存储的第二网页数据至少有两个匹配成功时,则认为可以直接调整配置数据库,从而网页数据处理平台接收对配置数据库的调整指令。例如,第一网页数据拆分后得到的拆分数据为“用户名”和“错误”,当分别与“用户名输入错误”或“用户名大小写输入错误”匹配成功时,则认为可以直接调整配置数据库,则网页数据处理平台接收配置数据库的调整指令。
S504:根据配置数据库的调整指令,获取与第一网页数据的拆分数据相匹配的提示信息作为与第一网页数据相匹配的提示信息。
具体地,当网页数据平台接收到对配置数据库的调整指令,获取与拆分数据匹配成功的第二网页数据,并且获取该第二网页数据对应的提示信息,从而认为该提示信息是与第一网页数据进行拆分后得到的拆分数据最匹配的提示信息,并作为与该第一网页数据相匹配的提示信息。例如,第一网页数据拆分后得到的拆分数据为“用户名”和“错误”,当分别与“用户名输入错误”或“用户名大小写输入错误”匹配成功时,用户可以根据需要向网页数据处理平台输入调整指令,将“用户名错误”与“用户名输入错误”相关联,从而网页数据处理平台则获取“用户名输入错误”的提示信息“请重新输入用户名”,将该提示信息“请重新输入用户名”作为第一网页数据“用户名错误”的提示信息。
S506:将第一网页数据以及与第一网页数据相匹配的提示信息更新至配置数据库作为新的第二网页数据并标记新的第二网页数据。
具体地,将该第一网页数据和获取到的与该第一网页数据相匹配的提示信息更新在配置数据库中,作为该配置数据库中新的第二网页数据,并对该新的第二网页数据进行标记。例如,将第一网页数据“用户名错误”与获取到的与该第一网页数据“用户名错误”相匹配的提示信息“请重新输入用户名”更新在配置数据库中,作为该配置数据库中新的第二网页数据,并且对该第二网页数据进行标记,便于将该新的第二网页数据对应的提示信息发送到用户终端的APP中嵌入的网页。
上述实施例中,当第一网页数据拆分后得到的拆分数据与配置数据库中存储的至少两个第二网页数据匹配成功时,可根据需要接收调整指令,直接将相匹配的提示信息更新至配置数据库中,节省匹配时间,对配置数据库更新及时,适用性强。
在其中一个实施例中,可参见图6,提供一关联步骤的流程图,该关联步骤可在图2所示实施例中步骤S204之后执行,步骤S204,即将所述第一网页数据与配置数据库中存储的第二网页数据进行匹配,所述配置数据库中存储第二网页数据和对应的提示信息的步骤之后执行,该关联步骤可以包括:
S602:当第一网页数据与配置数据库中存储的第二网页数据匹配成功时,则对与第一网页数据相匹配的配置数据库中的第二网页数据进行标记。
具体地,当网页数据处理平台爬取到用户终端的APP中嵌入的网页的第一网页数据时,将第一网页数据与第二网页数据进行匹配,当该第一网页数据与第二网页数据匹配成功时,则将与第一网页数据匹配成功的第二网页数据进行标记。例如,网页数据处理平台 获取到第一网页数据为“密码错误”,当成功与配置数据库中的第二网页数据进行匹配时,则将第二网页数据进行标记。
S604:将配置数据库中所标记的第二网页数据对应的提示信息返回至网页。
具体地,根据对第二网页数据的标记,获取到第二网页数据对应的提示信息,该提示信息即为第一网页数据的提示信息,则将该提示信息返回至用户终端的APP中嵌入的网页。例如,第一网页数据“密码错误”与配置数据库中的第二网页数据“密码错误”匹配成功,则根据对第二网页数据“密码错误”的标记,获取到第二网页数据“密码错误”的提示信息为“请重新输入密码”,则将该提示信息“请重新输入密码”作为第一网页数据的提示信息返回到用户终端的APP中嵌入的网页。
上述实施例中,若网页数据处理平台爬取到的第一网页数据与第二网页数据匹配成功,则直接获取第二网页数据的提示信息作为第一网页的提示信息,并将该提示信息返回到用户终端的APP中嵌入的网页上,针对不同网页的第一网页数据,都可直接在配置数据库中匹配,如果匹配成功则可直接获取到相关的提示信息,无需针对每个网站开发独立的代码,减少开发量,匹配效率高,适用性强。
在其中一个实施例中,提供另一网站数据处理方法。本实施例以该方法应用到网站数据处理平台来举例说明。
具体地,网站数据处理平台爬取到嵌入到用户终端中的网页上的第一网页数据,该第一网页数据是指可以在用户终端中嵌入的网页上的内容或信息等;具体地,该第一网页数据可以是文字数据、图片数据、数字数据或错误提示信息数据等,例如,当嵌入至APP中的网页存在错误时,如用户输入的用户名错误时,网页展现“用户名错误”的错误信息,该用户名错误的错误信息即第一网页数据。将该第一网页数据与配置数据库存储的第二网页数据进行匹配,配置数据库中存储有相应的第二网页数据,以及第二网页数据相对应的提示信息的数据库,第二网页数据是指预先存储在配置数据库中的网页相关内容或信息,其中该第二网页数据可以是文字数据、图片数据、数字数据或相关错误信息数据等,当第一网页数据与第二网页数据匹配成功时,则对与第一网页数据相匹配的配置数据库中的第二网页数据进行标记,将标记的第二网页数据对应的提示信息返回至网页。
当第一网页数据与第二网页数据未匹配成功时,则将第一网页数据进行拆分得到拆分数据,将拆分数据与配置数据库中存储的第二网页数据匹配,当拆分数据与第二网页数据有一个匹配成功时,则标记该与拆分数据匹配成功的第二网页数据,并将标记的该第二网页数据对应的提示信息返回至网页。
当拆分数据与至少两个第二网页数据匹配成功时,可以接收对配置数据库调整的调整指令,根据配置数据库的调整指令,获取与第一网页数据的拆分数据相匹配的提示信息作为与第一网页数据相匹配的提示信息,并将第一网页数据以及与第一网页数据相匹配的提示信息更新至配置数据库作为新的第二网页数据并标记新的第二网页数据,将标记的新的第二网页数据对应的提示信息返回至网页;或者若当拆分数据与至少两个第二网页数据匹 配成功时,也可以通过计算每一个与拆分数据匹配成功的配置数据库中存储的第二网页数据的匹配率,对匹配率最大的与拆分数据匹配成功的配置数据库中存储的第二网页数据进行标记,将标记的新的第二网页数据对应的提示信息返回至用户终端的APP中嵌入的网页。
对未与第二网页数据匹配成功的第一网页数据的爬取次数进行记录,当爬取次数超过预设值时,则获取与第一网页数据的拆分数据相匹配的提示信息作为与第一网页数据相匹配的提示信息,将第一网页数据以及与第一网页数据相匹配的提示信息更新至配置数据库。
需要说明的是,本实施例中,可以对配置数据库中存储的数据直接进行标记;还可以是,配置数据库中存储第二网页数据时,每一类第二网页数据可以对应的建立有相应的zookeeper(分布式系统的协调服务)主节点,zookeeper主节点下每个第二网页数据对应的有zookeeper子节点,当对数据标记时,可以是对相应的zookeeper子节点进行标记上述实施例中,当网页数据处理平台爬取到的不同嵌入到用户终端中的网页的第一网页数据可与第二网页数据进行匹配,且若匹配不成功,可对第一网页数据进行拆分得到拆分数据,进而拆分数据与第二网页数据进行匹配,无需直接更改代码,开发量小,且根据匹配到的第二网页数据的数量,可直接获取到匹配的第二网页数据,由此取得相关的提示信息,也可计算匹配率,选取最合适的第二网页数据并且获取相应的提示信息,匹配准确,获取提示信息准确,还可直接根据对配置数据库的调整指令对配置数据库进行调整,减少匹配时间,适用性强,另外根据未匹配到第二网页数据的第一网页数据的爬取次数,可直接更新配置数据库,无需过多的人工运维,提高工作效率。
应该理解的是,虽然图2-6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-6中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在其中一个实施例中,请参见图7,提供一网页数据处理装置的结构示意图,网页数据处理装置700包括:
爬取模块710,用于爬取网页的第一网页数据。
第一匹配模块720,用于将第一网页数据与配置数据库中存储的第二网页数据进行匹配,配置数据库中存储第二网页数据和对应的提示信息。
拆分模块730,用于当第一网页数据未与配置数据库中存储的第二网页数据匹配成功时,则将第一网页数据进行拆分得到拆分数据。
第二匹配模块740,用于将拆分数据与配置数据库中存储的第二网页数据进行匹配。
第一标记模块750,用于当拆分数据与配置数据库中存储的第二网页数据匹配成功时,则标记与拆分数据匹配成功的配置数据库中存储的第二网页数据。
第一返回模块760,用于将标记的第二网页数据对应的提示信息返回至网页。
在其中一个实施例中,标记模块750可以包括:
计算单元,用于当拆分数据与配置数据库中存储的至少两个第二网页数据匹配成功时,计算每一个与拆分数据匹配成功的配置数据库中存储的第二网页数据的匹配率。
标记单元,用于对匹配率最大的与拆分数据匹配成功的配置数据库中存储的数据进行标记。
在其中一个实施例中,网页数据处理装置700还可以包括:
记录模块,用于记录未与配置数据库中存储的第二网页数据匹配成功的第一网页数据的爬取次数。
获取模块,用于当爬取次数超过预设值时,则获取与第一网页数据的拆分数据相匹配的提示信息作为与第一网页数据相匹配的提示信息。
更新模块,用于将第一网页数据以及与第一网页数据相匹配的提示信息更新至配置数据库。
在其中一个实施例中,标记模块750还可以包括:
调整指令接收单元,用于当拆分数据与配置数据库中存储的至少两个第二网页数据匹配成功时,接收配置数据库的调整指令。
提示信息获取单元,用于根据配置数据库的调整指令,获取与第一网页数据的拆分数据相匹配的提示信息作为与第一网页数据相匹配的提示信息。
更新单元,用于将第一网页数据以及与第一网页数据相匹配的提示信息更新至配置数据库作为新的第二网页数据并标记新的第二网页数据。
在其中一个实施例中,网页数据处理装置700还可以包括:
第二标记模块,用于当第一网页数据与配置数据库中存储的第二网页数据匹配成功时,则对与第一网页数据相匹配的配置数据库中的第二网页数据进行标记。
第二返回模块,用于将配置数据库中所标记的第二网页数据对应的提示信息返回至网页。
关于网页数据处理装置的具体限定可以参见上文中对于网页数据处理方法的限定,在此不再赘述。上述网页数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指 令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储网页数据处理数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种网页数据处理方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
一种计算机设备,包括存储器和一个或多个处理器,存储器中储存有计算机可读指令,计算机可读指令被处理器执行时,使得一个或多个处理器执行以下步骤:爬取网页的第一网页数据。将第一网页数据与配置数据库中存储的第二网页数据进行匹配,配置数据库中存储第二网页数据和对应的提示信息。当第一网页数据未与配置数据库中存储的第二网页数据匹配成功时,则将第一网页数据进行拆分得到拆分数据。将拆分数据与配置数据库中存储的第二网页数据进行匹配。当拆分数据与配置数据库中存储的第二网页数据匹配成功时,则标记与拆分数据匹配成功的配置数据库中存储的第二网页数据。及将标记的第二网页数据对应的提示信息返回至网页。
在其中一个实施例中,处理器执行计算机可读指令时还实现以下步骤:当拆分数据与配置数据库中存储的至少两个第二网页数据匹配成功时,计算每一个与拆分数据匹配成功的配置数据库中存储的第二网页数据的匹配率。及对匹配率最大的与拆分数据匹配成功的配置数据库中存储的第二网页数据进行标记。
在其中一个实施例中,处理器执行计算机可读指令时还实现以下步骤:记录未与配置数据库中存储的第二网页数据匹配成功的第一网页数据的爬取次数。当爬取次数超过预设值时,则获取与第一网页数据的拆分数据相匹配的提示信息作为与第一网页数据相匹配的提示信息。及将第一网页数据以及与第一网页数据相匹配的提示信息更新至配置数据库。
在其中一个实施例中,处理器执行计算机可读指令时还实现以下步骤:当拆分数据与配置数据库中存储的至少两个第二网页数据匹配成功时,接收配置数据库的调整指令。根据配置数据库的调整指令,获取与第一网页数据的拆分数据相匹配的提示信息作为与第一网页数据相匹配的提示信息。及将第一网页数据以及与第一网页数据相匹配的提示信息更新至配置数据库作为新的第二网页数据并标记新的第二网页数据。
在其中一个实施例中,处理器执行计算机可读指令时还实现以下步骤:当第一网页数据与配置数据库中存储的第二网页数据匹配成功时,则对与第一网页数据相匹配的配置数据库中的第二网页数据进行标记。及将配置数据库中所标记的第二网页数据对应的提示信息返回至网页。
上述关于计算机设备的具体限定可以参见上文中关于网页数据处理方法的限定,在此不再赘述。
在一个实施例中,请继续参见图8,提供一个或多个存储有计算机可读指令的非易失性存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:爬取网页的第一网页数据。将第一网页数据与配置数据库中存储的第二网页数据进行匹配,配置数据库中存储第二网页数据和对应的提示信息。当第一网页数据未与配置数据库中存储的第二网页数据匹配成功时,则将第一网页数据进行拆分得到拆分数据。将拆分数据与配置数据库中存储的第二网页数据进行匹配。当拆分数据与配置数据库中存储的第二网页数据匹配成功时,则标记与拆分数据匹配成功的配置数据库中存储的第二网页数据。及将标记的第二网页数据对应的提示信息返回至网页。
在其中一个实施例中,该计算机可读指令被处理器执行时还可以实现以下步骤:当拆分数据与配置数据库中存储的至少两个第二网页数据匹配成功时,计算每一个与拆分数据匹配成功的配置数据库中存储的第二网页数据的匹配率。及对匹配率最大的与拆分数据匹配成功的配置数据库中存储的第二网页数据进行标记。
在其中一个实施例中,该计算机可读指令被处理器执行时还可以实现以下步骤:记录未与配置数据库中存储的第二网页数据匹配成功的第一网页数据的爬取次数。当爬取次数超过预设值时,则获取与第一网页数据的拆分数据相匹配的提示信息作为与第一网页数据相匹配的提示信息。及将第一网页数据以及与第一网页数据相匹配的提示信息更新至配置数据库。
在其中一个实施例中,该计算机可读指令被处理器执行时还可以实现以下步骤:当拆分数据与配置数据库中存储的至少两个第二网页数据匹配成功时,接收配置数据库的调整指令。根据配置数据库的调整指令,获取与第一网页数据的拆分数据相匹配的提示信息作为与第一网页数据相匹配的提示信息。及将第一网页数据以及与第一网页数据相匹配的提示信息更新至配置数据库作为新的第二网页数据并标记新的第二网页数据。
在其中一个实施例中,该计算机可读指令被处理器执行时还可以实现以下步骤:当第一网页数据与配置数据库中存储的第二网页数据匹配成功时,则对与第一网页数据相匹配的配置数据库中的第二网页数据进行标记。及将配置数据库中所标记的第二网页数据对应的提示信息返回至网页。
上述关于计算机存储介质的具体限定可以参见上文中关于网页数据处理方法的限定,在此不再赘述
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲 存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (20)

  1. 一种网页数据处理方法,包括:
    爬取网页的第一网页数据;
    将所述第一网页数据与配置数据库中存储的第二网页数据进行匹配,所述配置数据库中存储与第二网页数据对应的提示信息;
    当所述第一网页数据未与所述配置数据库中存储的第二网页数据匹配成功时,则将所述第一网页数据进行拆分得到拆分数据;
    将所述拆分数据与所述配置数据库中存储的第二网页数据进行匹配;
    当所述拆分数据与所述配置数据库中存储的第二网页数据匹配成功时,则标记与所述与拆分数据匹配成功的所述配置数据库中存储的第二网页数据;及
    将标记的第二网页数据对应的提示信息返回至所述网页。
  2. 根据权利要求1所述的方法,其特征在于,所述当所述拆分数据与所述配置数据库中存储的第二网页数据匹配成功时,则标记与所述与拆分数据匹配成功的所述配置数据库中存储的第二网页数据,包括:
    当所述拆分数据与所述配置数据库中存储的至少两个第二网页数据匹配成功时,计算每一个与所述拆分数据匹配成功的所述配置数据库中存储的所述第二网页数据的匹配率;及
    对所述匹配率最大的与所述拆分数据匹配成功的所述配置数据库中存储的所述第二网页数据进行标记。
  3. 根据权利要求1所述的方法,其特征在于,所述方法还包括:
    记录未与所述配置数据库中存储的第二网页数据匹配成功的第一网页数据的爬取次数;
    当所述爬取次数超过预设值时,则获取与所述第一网页数据的拆分数据相匹配的提示信息作为与所述第一网页数据相匹配的提示信息;及
    将所述第一网页数据以及与所述第一网页数据相匹配的提示信息更新至所述配置数据库。
  4. 根据权利要求1所述的方法,其特征在于,所述当所述拆分数据与所述配置数据库中存储的第二网页数据匹配成功时,则标记与所述拆分数据匹配成功的所述配置数据库中存储的第二网页数据,还包括:
    当所述拆分数据与所述配置数据库中存储的至少两个第二网页数据匹配成功时,接收所述配置数据库的调整指令;
    根据所述配置数据库的调整指令,获取与所述第一网页数据的拆分数据相匹配的提示信息作为与所述第一网页数据相匹配的提示信息;及
    将所述第一网页数据以及与所述第一网页数据相匹配的提示信息更新至所述配置数据库作为新的第二网页数据并标记所述新的第二网页数据。
  5. 根据权利要求1所述的方法,其特征在于,所述方法还包括:
    当所述第一网页数据与所述配置数据库中存储的第二网页数据匹配成功时,则对与所述第一网页数据相匹配的所述配置数据库中的第二网页数据进行标记;及
    将所述配置数据库中所标记的第二网页数据对应的提示信息返回至所述网页。
  6. 一种网页数据处理装置,包括:
    爬取模块,用于爬取网页的第一网页数据;
    第一匹配模块,用于将所述第一网页数据与配置数据库中存储的第二网页数据进行匹配,所述配置数据库中存储第二网页数据和对应的提示信息;
    拆分模块,用于当所述第一网页数据未与所述配置数据库中存储的第二网页数据匹配成功时,则将所述第一网页数据进行拆分得到拆分数据;
    第二匹配模块,用于将所述拆分数据与所述配置数据库中存储的第二网页数据进行匹配;
    第一标记模块,用于当所述拆分数据与所述配置数据库中存储的第二网页数据匹配成功时,则标记与所述与拆分数据匹配成功的所述配置数据库中存储的第二网页数据;及
    第一返回模块,用于将标记的第二网页数据对应的提示信息返回至所述网页。
  7. 根据权利要求6所述的装置,其特征在于,所述标记模块包括:
    计算单元,用于当所述拆分数据与所述配置数据库中存储的至少两个第二网页数据匹配成功时,计算所述每一个与所述拆分数据匹配成功的所述配置数据库中存储的数据的匹配率;及
    标记单元,用于对所述匹配率最大的与所述拆分数据匹配成功的所述配置数据库中存储的所述第二数据进行标记。
  8. 根据权利要求1所述的装置,其特征在于,所述装置还包括:
    记录模块,用于记录未与所述配置数据库中存储的第二网页数据匹配成功的第一网页数据的爬取次数;
    获取模块,用于当所述爬取次数超过预设值时,则获取与所述第一网页数据的拆分数据相匹配的提示信息作为与所述第一网页数据相匹配的提示信息;及
    更新模块,用于将所述第一网页数据以及与所述第一网页数据相匹配的提示信息更新至所述配置数据库。
  9. 根据权利要求6所述的装置,其特征在于,所述标记模块还包括:
    调整指令接收单元,当所述拆分数据与所述配置数据库中存储的至少两个第二网页数据匹配成功时,接收所述配置数据库的调整指令;
    提示信息获取单元,根据所述配置数据库的调整指令,获取与所述第一网页数据的拆分数据相匹配的提示信息作为与所述第一网页数据相匹配的提示信息;及
    更新单元,将所述第一网页数据以及与所述第一网页数据相匹配的提示信息更新至所述配置数据库作为新的第二网页数据并标记所述新的第二网页数据。
  10. 根据权利要求6所述的装置,其特征在于,所述装置还包括:
    第二标记模块,当所述第一网页数据与所述配置数据库中存储的第二网页数据匹配成功时,则对与所述第一网页数据相匹配的所述配置数据库中的第二网页数据进行标记;及
    第二返回模块,将所述配置数据库中所标记的第二网页数据对应的提示信息返回至所述网页。
  11. 一种计算机设备,包括存储器及一个或多个处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述一个或多个处理器执行时,使得所述一个或多个处理器执行以下步骤:
    爬取网页的第一网页数据;
    将所述第一网页数据与配置数据库中存储的第二网页数据进行匹配,所述配置数据库中存储与第二网页数据对应的提示信息;
    当所述第一网页数据未与所述配置数据库中存储的第二网页数据匹配成功时,则将所述第一网页数据进行拆分得到拆分数据;
    将所述拆分数据与所述配置数据库中存储的第二网页数据进行匹配;
    当所述拆分数据与所述配置数据库中存储的第二网页数据匹配成功时,则标记与所述与拆分数据匹配成功的所述配置数据库中存储的第二网页数据;及
    将标记的第二网页数据对应的提示信息返回至所述网页。
  12. 根据权利要求11所述的计算机设备,其特征在于,所述处理器执行所述计算机可读指令时实现所述当所述拆分数据与所述配置数据库中存储的第二网页数据匹配成功时,则标记与所述与拆分数据匹配成功的所述配置数据库中存储的第二网页数据,包括:
    当所述拆分数据与所述配置数据库中存储的至少两个第二网页数据匹配成功时,计算每一个与所述拆分数据匹配成功的所述配置数据库中存储的所述第二网页数据的匹配率;及
    对所述匹配率最大的与所述拆分数据匹配成功的所述配置数据库中存储的所述第二网页数据进行标记。
  13. 根据权利要求11所述的计算机设备,其特征在于,所述处理器执行所述计算机可读指令时还执行以下步骤:
    记录未与所述配置数据库中存储的第二网页数据匹配成功的第一网页数据的爬取次数;
    当所述爬取次数超过预设值时,则获取与所述第一网页数据的拆分数据相匹配的提示信息作为与所述第一网页数据相匹配的提示信息;及
    将所述第一网页数据以及与所述第一网页数据相匹配的提示信息更新至所述配置数据库。
  14. 根据权利要求11所述的计算机设备,其特征在于,所述处理器执行所述计算机可读指令时实现所述当所述拆分数据与所述配置数据库中存储的第二网页数据匹配成功 时,则标记与所述拆分数据匹配成功的所述配置数据库中存储的第二网页数据,还包括:
    当所述拆分数据与所述配置数据库中存储的至少两个第二网页数据匹配成功时,接收所述配置数据库的调整指令;
    根据所述配置数据库的调整指令,获取与所述第一网页数据的拆分数据相匹配的提示信息作为与所述第一网页数据相匹配的提示信息;及
    将所述第一网页数据以及与所述第一网页数据相匹配的提示信息更新至所述配置数据库作为新的第二网页数据并标记所述新的第二网页数据。
  15. 根据权利要求11所述的计算机设备,其特征在于,所述处理器执行所述计算机可读指令时还执行以下步骤:
    当所述第一网页数据与所述配置数据库中存储的第二网页数据匹配成功时,则对与所述第一网页数据相匹配的所述配置数据库中的第二网页数据进行标记;及
    将所述配置数据库中所标记的第二网页数据对应的提示信息返回至所述网页。
  16. 一个或多个存储有计算机可读指令的非易失性计算机可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行以下步骤:
    爬取网页的第一网页数据;
    将所述第一网页数据与配置数据库中存储的第二网页数据进行匹配,所述配置数据库中存储与第二网页数据对应的提示信息;
    当所述第一网页数据未与所述配置数据库中存储的第二网页数据匹配成功时,则将所述第一网页数据进行拆分得到拆分数据;
    将所述拆分数据与所述配置数据库中存储的第二网页数据进行匹配;
    当所述拆分数据与所述配置数据库中存储的第二网页数据匹配成功时,则标记与所述与拆分数据匹配成功的所述配置数据库中存储的第二网页数据;及
    将标记的第二网页数据对应的提示信息返回至所述网页。
  17. 根据权利要求16所述的存储介质,其特征在于,所述计算机可读指令被所述处理器执行时实现所述当所述拆分数据与所述配置数据库中存储的第二网页数据匹配成功时,则标记与所述与拆分数据匹配成功的所述配置数据库中存储的第二网页数据,包括:
    当所述拆分数据与所述配置数据库中存储的至少两个第二网页数据匹配成功时,计算每一个与所述拆分数据匹配成功的所述配置数据库中存储的所述第二网页数据的匹配率;及
    对所述匹配率最大的与所述拆分数据匹配成功的所述配置数据库中存储的所述第二网页数据进行标记。
  18. 根据权利要求16所述的存储介质,其特征在于,所述计算机可读指令被所述处理器执行时还执行以下步骤:
    记录未与所述配置数据库中存储的第二网页数据匹配成功的第一网页数据的爬取次数;
    当所述爬取次数超过预设值时,则获取与所述第一网页数据的拆分数据相匹配的提示信息作为与所述第一网页数据相匹配的提示信息;及
    将所述第一网页数据以及与所述第一网页数据相匹配的提示信息更新至所述配置数据库。
  19. 根据权利要求16所述的存储介质,其特征在于,所述计算机可读指令被所述处理器执行时实现所述当所述拆分数据与所述配置数据库中存储的第二网页数据匹配成功时,则标记与所述拆分数据匹配成功的所述配置数据库中存储的第二网页数据,还包括:
    当所述拆分数据与所述配置数据库中存储的至少两个第二网页数据匹配成功时,接收所述配置数据库的调整指令;
    根据所述配置数据库的调整指令,获取与所述第一网页数据的拆分数据相匹配的提示信息作为与所述第一网页数据相匹配的提示信息;及
    将所述第一网页数据以及与所述第一网页数据相匹配的提示信息更新至所述配置数据库作为新的第二网页数据并标记所述新的第二网页数据。
  20. 根据权利要求16所述的存储介质,其特征在于,所述计算机可读指令被所述处理器执行时还执行以下步骤:
    当所述第一网页数据与所述配置数据库中存储的第二网页数据匹配成功时,则对与所述第一网页数据相匹配的所述配置数据库中的第二网页数据进行标记;及
    将所述配置数据库中所标记的第二网页数据对应的提示信息返回至所述网页。
PCT/CN2018/080006 2017-07-27 2018-03-22 网页数据处理方法、装置、计算机设备和存储介质 WO2019019671A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710626242.5A CN107784064B (zh) 2017-07-27 2017-07-27 网页数据处理方法、装置、计算机设备及计算机存储介质
CN201710626242.5 2017-07-27

Publications (1)

Publication Number Publication Date
WO2019019671A1 true WO2019019671A1 (zh) 2019-01-31

Family

ID=61438132

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/080006 WO2019019671A1 (zh) 2017-07-27 2018-03-22 网页数据处理方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN107784064B (zh)
WO (1) WO2019019671A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107784064B (zh) * 2017-07-27 2019-12-13 深圳壹账通智能科技有限公司 网页数据处理方法、装置、计算机设备及计算机存储介质
CN110489629A (zh) * 2019-08-28 2019-11-22 云汉芯城(上海)互联网科技股份有限公司 数据爬取方法、数据爬取装置、数据爬取设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629252A (zh) * 2012-02-27 2012-08-08 沈文策 信息提示方法和系统
CN102737049A (zh) * 2011-04-11 2012-10-17 腾讯科技(深圳)有限公司 一种数据库的查询方法和系统
CN103092860A (zh) * 2011-11-02 2013-05-08 中国移动通信集团四川有限公司 搜索提示信息生成方法及装置
CN104050183A (zh) * 2013-03-13 2014-09-17 腾讯科技(深圳)有限公司 浏览器输入框的内容匹配结果提示方法及装置
CN107784064A (zh) * 2017-07-27 2018-03-09 上海壹账通金融科技有限公司 网页数据处理方法、装置、计算机设备及计算机存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699694B (zh) * 2013-12-04 2019-08-23 腾讯科技(深圳)有限公司 提示信息获取方法和装置
CN104881432A (zh) * 2015-04-23 2015-09-02 百度在线网络技术(北京)有限公司 一种用于获取提示信息的方法和装置
CN105224273B (zh) * 2015-09-25 2018-08-31 联想(北京)有限公司 显示处理方法、显示处理装置和电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737049A (zh) * 2011-04-11 2012-10-17 腾讯科技(深圳)有限公司 一种数据库的查询方法和系统
CN103092860A (zh) * 2011-11-02 2013-05-08 中国移动通信集团四川有限公司 搜索提示信息生成方法及装置
CN102629252A (zh) * 2012-02-27 2012-08-08 沈文策 信息提示方法和系统
CN104050183A (zh) * 2013-03-13 2014-09-17 腾讯科技(深圳)有限公司 浏览器输入框的内容匹配结果提示方法及装置
CN107784064A (zh) * 2017-07-27 2018-03-09 上海壹账通金融科技有限公司 网页数据处理方法、装置、计算机设备及计算机存储介质

Also Published As

Publication number Publication date
CN107784064B (zh) 2019-12-13
CN107784064A (zh) 2018-03-09

Similar Documents

Publication Publication Date Title
WO2019200756A1 (zh) 数据审批方法、装置、计算机设备和存储介质
US10516659B2 (en) User information obtaining method and apparatus, and server by an organization to deliver targated data to the user
US9268758B2 (en) Method for associating third party content with online document signing
US20220091913A1 (en) Systems and methods for api request conversion
US9990191B2 (en) Cloud-based localization platform
US20160048494A1 (en) Form filling method and related terminal
WO2019037417A1 (zh) 网页数据爬取方法、装置、网页数据爬取平台及存储介质
WO2017211190A1 (zh) 一种数据处理方法及装置
WO2019080460A1 (zh) 微信公众号的管理方法、电子装置及计算机可读存储介质
WO2019091018A1 (zh) 知识图谱建立方法、装置、计算机设备及计算机存储介质
WO2020125364A1 (zh) 信息校验输入方法、装置、计算机设备和存储介质
EP4105848A1 (en) Method and apparatus for evaluating joint training model
JP6110481B2 (ja) 意味タグの生成のための仲介コンピュータデバイスおよび関連の方法
US20180181270A1 (en) Ordered Macro Building Tool
WO2020000670A1 (zh) 短信拼接处理方法、装置、计算机设备和存储介质
US20150365497A1 (en) Providing access to information across multiple computing devices
US20160070801A1 (en) Augmenting Search Results With Device And Application History
WO2019019671A1 (zh) 网页数据处理方法、装置、计算机设备和存储介质
US20140316828A1 (en) System and method for exchanging an electronic ticket
US11323434B1 (en) System and method for secure two factor authentication
US10755318B1 (en) Dynamic generation of content
US11023426B1 (en) Method and system for detection of open source web application version
US20150254366A1 (en) Application software, electronic forms, and associated methods
WO2019019674A1 (zh) 网页错误信息处理方法、装置、计算机设备和存储介质
US11301458B2 (en) Automated content generation

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 29.05.2020)

122 Ep: pct application non-entry in european phase

Ref document number: 18838973

Country of ref document: EP

Kind code of ref document: A1