WO2006046323A1 - Internet information collection device, program, and method - Google Patents

Internet information collection device, program, and method Download PDF

Info

Publication number
WO2006046323A1
WO2006046323A1 PCT/JP2005/006919 JP2005006919W WO2006046323A1 WO 2006046323 A1 WO2006046323 A1 WO 2006046323A1 JP 2005006919 W JP2005006919 W JP 2005006919W WO 2006046323 A1 WO2006046323 A1 WO 2006046323A1
Authority
WO
WIPO (PCT)
Prior art keywords
tag
event
page
sentence
information
Prior art date
Application number
PCT/JP2005/006919
Other languages
French (fr)
Japanese (ja)
Inventor
Masanobu Masuda
Original Assignee
Fujitsu Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Limited filed Critical Fujitsu Limited
Priority to JP2006542237A priority Critical patent/JP4507206B2/en
Publication of WO2006046323A1 publication Critical patent/WO2006046323A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Definitions

  • the present invention relates to an Internet information collection apparatus, program, and method for collecting link destination web information from a web page that has been developed on a screen.
  • the present invention relates to an Internet information collecting apparatus, a program, and a method for collecting. Background art
  • the Internet website has link information to other contents in the web page as a hyperlink. Judging the transition to the next page and collecting the information of the related page, the method is taken.
  • Web robots are known to automatically collect content on the Internet.
  • Web robots collect link information by analyzing HTML documents of web pages, and hierarchically transition web pages. To collect content and enable users to search and browse web page information previously published on the Internet.
  • Patent Document 1 JP 2002-073609
  • Patent Document 2 Japanese Patent Laid-Open No. 2003-345826
  • the selection menu displayed on the web page indicates options “1” to “3” to the user, and generates URLs as different link destination information according to the options selected by the user. Transition to the web page.
  • the transition destination URL can be determined only from the code written on the web page. Therefore, there is a problem that it is not possible to collect the web information of the transition destination.
  • An object of the present invention is to provide an Internet information collection device, program, and method for automatically collecting link information generated by user operations without omission. Means for solving the problem
  • the present invention provides an Internet information collecting apparatus.
  • the Internet information collection device of the present invention is
  • a page browsing part (browser) that acquires web pages on the Internet and expands the screen
  • a page analysis unit that analyzes a web page displayed on the page browsing unit and extracts event operation tag statements that dynamically generate link information according to an event generated by a user operation;
  • An event generation unit that generates an event for the event operation tag sentence extracted by the page analysis unit;
  • the link information detection unit further detects and stores link destination web information from the proxy server accessed by the page browsing unit.
  • the page analysis unit extracts the input sentence from the range specified by the form sentence in the tag sentence that constructs the web page, and the event generation part displays all the events defined for the input sentence. It is generated sequentially, and link information is generated by a valid event in it.
  • the page analysis unit extracts an external sentence indicating options to the user and an input sentence that requires user operation from the range specified by the form sentence in the tag sentence that constructs the web page, and the event.
  • the generator generates an event for the input sentence while changing the options of the select sentence.
  • the page analysis unit selects the input tag that is a child tag of the form tag and the selection tag that is a sibling tag of the input tag as well as the range power specified by the form tag in the tag sentence that constructs the web page.
  • the selection tag that creates the selection tag and multiple selection options that indicate the contents of the selection list that is the child tag of the selection tag are extracted, and the event generator changes the multiple selection options tag and changes the event of the input tag. appear.
  • the event generation unit sequentially generates all the events defined for the input tag, and generates link information based on the valid events therein.
  • the link information detection unit detects and saves all link information of the web page that transitions when an event occurs for the event operation tag statement of the currently deployed web page, and then develops another web page on the screen. Repeat the process of acquiring and saving the link information of the web page that changes the page when an event occurs for the event operation tag statement.
  • the link information detection unit detects link information of a web page that transitions without page transition from communication event information notified before communication to a link destination.
  • the present invention provides an Internet information collection program.
  • Internet information of the present invention Information gathering program
  • the present invention provides a method for collecting Internet information.
  • the Internet information collection method of the present invention includes:
  • the script is executed by executing a script sentence or the like according to an event generated by a user operation requiring a mouse operation or a keyboard operation of a button or a selection list of a web page expanded on the page browsing unit.
  • Page transition by automatically generated URL It is realized by a pseudo operation by generating an event in the application, and it is possible to detect the link information that is transitioned by the powerful user operation that cannot be detected by analyzing the HTML document. Web information can be collected.
  • link information is similarly detected by a pseudo operation caused by an event generated by an application, and by repeating this, all information that is published on the Internet is collected. It becomes possible.
  • the link destination URL information is stored in the proxy server accessed by the browser.
  • the URL By acquiring the URL, it is possible to collect web information on the Internet without omission of deployed web page power.
  • FIG. 1 Block diagram of an Internet information collecting apparatus according to the present invention.
  • FIG. 2 Block diagram of the hardware environment of a computer that implements the Internet information collection device of Figure 1
  • FIG. 3 is an explanatory diagram of a web page on which form parts to be events are generated according to the present invention.
  • FIG. 10 An explanatory diagram of a web page in which a selection list and operation buttons for event generation are arranged according to the present invention.
  • FIG. 11 Explanatory diagram of the HTML source text that builds the web page in Figure 10
  • Figure 12 Illustration of DOM tree obtained by parsing HTML source sentence in Figure 11 using DOM parsing
  • FIG. 15 is a flowchart of Internet information collection processing according to the present invention.
  • FIG. 16 is a flowchart of the link information detection process of FIG.
  • FIG. 17 is a flowchart of link information detection processing following FIG.
  • FIG. 18 is a block diagram of another embodiment of the Internet information collecting apparatus according to the present invention.
  • FIG. 20 Explanatory diagram of processing operation of the embodiment of FIG.
  • FIG. 21 is a flowchart of internet information collection processing in the embodiment of FIG. 18. BEST MODE FOR CARRYING OUT THE INVENTION
  • FIG. 1 is a block diagram showing an embodiment of a functional configuration of an Internet information collecting apparatus according to the present invention.
  • an Internet information collecting apparatus 10 of the present invention is composed of, for example, a computer and can be connected to websites 14 1, 14 2, 14-3 as information collecting destinations via the Internet 12. it can.
  • the Internet information collecting apparatus 10 is provided with a communication control unit 16 and an application execution environment 18.
  • the communication control unit 16 performs communication control for browsing and browsing web pages with the websites 14-1 to 14 3 via the Internet 12.
  • the application execution environment 18 is realized by executing a program by a computer, and includes a browser 20, a page analysis unit 22, an event generation unit 24, a link information detection unit 26, an event management table 28, a link list table 30, and A content acquisition unit 32 is provided.
  • the browser 20 provided in the application execution environment 18 of the Internet information collecting apparatus 10 functions as a page browsing unit, acquires a web page of a website, for example, the website 14 1 via the Internet 12, and develops a screen. To do.
  • the page analysis unit 22 uses the browser 22 that functions as a page browsing unit.
  • the page operation is analyzed, and event operation tag statements that dynamically generate link information according to events generated by user operations are extracted.
  • This event operation tag sentence is a tag sentence that constructs a radio button or a selection list that requires mouse operation or keyboard operation, which is arranged in an HTML source sentence that constructs a web page. Extracts the form sentence indicated by the FORM> tag.
  • the event generation unit 24 executes an event that executes a script statement that dynamically generates a link destination LRU in response to a user operation on the event operation tag statement extracted by the page analysis unit 22. Is generated.
  • a list of events generated by the event generation unit 24 is stored in correspondence with the tags for which events are generated.
  • the link information detection unit 26 detects the page transition force link page information generated by the execution of the script statement by the event generated by the event generation unit 24, that is, the link destination web page information, that is, the link destination URL. save.
  • the content acquisition unit 32 sequentially extracts the URLs from the link list table 30, connects to the link destination website, acquires the web page of the website, and acquires the database. Save to.
  • the Internet information collecting apparatus 10 of the present invention in FIG. 1 is realized by, for example, hardware resources of a computer as shown in FIG.
  • the CPU 101 has a bus 101 with RAM 102, hard disk controller (software) 104, floppy disk driver (software) 110, CD-ROM driver (software) 114, mouse controller 118, keyboard controller 122, display controller. 126, communication board 130 is connected.
  • the hard disk controller 104 is connected to the hard disk drive 106 and loads the Internet information collection program of the present invention. When the computer is started, the necessary program is called from the hard disk drive 106 and stored in the RAM 102. Expand, Executed by CPU 100.
  • a floppy disk drive (hardware) 112 is connected to the floppy disk driver 110, and can read and write to the floppy disk (R).
  • a CD drive (node) 116 is connected to the CD-ROM driver 114, and data and programs stored on the CD can be read.
  • the mouse controller 118 transmits an input operation of the mouse 120 to the CPU 100.
  • the keyboard controller 122 transmits the input operation of the keyboard 124 to the CPU 100.
  • the display controller 126 performs display on the display unit 128.
  • the communication board 130 uses a communication line 132 including radio, and communicates with a website server via a network such as the Internet.
  • FIG. 3 is an explanatory diagram of a web page on which form parts that are subject to event generation in the present invention are arranged.
  • a link URL 36 is arranged, and an operation button 38 and an operation button 40 are arranged below it.
  • FIG. 4 is an explanatory diagram of an HTML source sentence for constructing the web page 34 of FIG.
  • the link URL 36 in the web page 34 in FIG. 3 jumps to “a.html” by the function of the A tag on the 11th line.
  • the link destination “a.html” by the A tag on the 11th line of the HTML source sentence 42 can be directly detected by analyzing the HTML source sentence 42 as in the past.
  • the operation buttons 38 and 40 on the web page 34 in FIG. 3 are constructed by a form sentence in a range surrounded by ⁇ FORM> tags on the 12th to 15th lines in the HTML source sentence 42 in FIG.
  • this form sentence for example, when the user presses down the operation button 38 on the web page 34 in FIG. 3, the “011 1 ⁇ ” event on the 13th line of the HTML source sentence 42 is displayed. Event occurs, and the ""; jump () "J function defined here is called.
  • the id attribute value of the INPUT tag is set for the script statements on the 3rd to 8th lines.
  • the page transition is done by creating the URL of the link destination and changing the location object.
  • the page analysis unit 22 provided in the application execution environment 18 of the Internet information collecting apparatus 10 in FIG. 1 analyzes the HTML source sentence 42 shown in FIG. 4 and functions as an application.
  • the DOM tree 44 shown in Fig. 5 that can be operated by the event generation unit 24 is constructed, and the event generation unit 24 directly generates an event onclick for the INPUT tag by the event generation unit 24, and the link is made by executing the script statement.
  • the page transitions of the previous URLs “b.html” and “c.html” are performed, and the link destination URL is detected as link destination information associated with this page transition.
  • the page analysis unit 22 shown in FIG. 1 has an SDK (Software Development Kit) for the browser 20, and the SDK is an application programming interface (hereinafter referred to as “API” t ⁇ , This is a tool for building software using SDK (Software Development Kit)
  • SDK Software Development Kit
  • API application programming interface
  • DOM parser that parses the HTML source sentence 42 of the web page expanded by the browser 20, parses the HTML source sentence with this DOM parser, and has a DOM tree 44 shown in Fig. 5.
  • the document 'object' model DOM shown in the DOM tree 44 is an API for accessing HTML tag statements as a collection of tree-structured node objects.
  • the onclick event is generated directly from the event generator 24 as a program for the INPUT tag in the form tag, and the script By executing a statement, you can generate a link destination URL and change the page.
  • the onclick event of the 13th and 14th line I NPUT tags in the form sentence in the HTML source sentence 42 in FIG. 4 is originally generated by operating the push buttons 38 and 40 shown in the web page 34 in FIG. An event occurs when the button is pressed down. It is a mechanism in which JavaScript functions in script statements are called.
  • the software development 'kit SDK provided in the page analysis unit 22 uses the DOM parser (DOM analysis means) in the kit SDK.
  • DOM parser DOM analysis means
  • the event onclick is generated directly from the event generator 24 as a program and the script text Can be executed to generate “b.html” and “c.html” to change pages.
  • the program simulates a button-down operation by the user.
  • FIG. 6 is an explanatory diagram of the A tag occurrence event list 46 showing the types of events defined corresponding to the A tag used for the link setting on the 11th line in FIG.
  • a tag event occurrence list 46 17 types of events are generated only by the A tag.
  • the types of events that occur are defined in the same way even if the IN PUT tags shown in lines 13 and 14 of Fig. 4 are used.
  • a tag occurrence event list 46 is described as shown in script activation HTML source statement 48 in Fig. 7, the script statement can be activated by generating event onclick. For these events, even if an event occurs, it will be discarded immediately.
  • the validity recognized by generating all the events and executing the script sentence For events, valid events are registered in the event management table 28 corresponding to the tag names as shown in FIG. As shown in Figure 8, the effective event corresponding to the tag name registered in the event management table 28 can be used as statistical information for event generation for subsequent tags. Will process all corresponding events for the tag.
  • the method of the fire event is, as shown in the fire event HTML source statement 50 of Fig. 9, for example, the focus setting "onfocusj" as shown in the 3rd and 4th lines for all tags.
  • “ondlur”, which is a release it is possible to issue an event directly to all tags, and as a result, the URL of the link destination URL by executing the script statement similar to the user's pseudo operation is executed. Generation is performed and page transition can be performed.
  • FIG. 10 is an explanatory diagram of a web page in which a selection list to be an event generation target and operation buttons are arranged in the present invention.
  • a map display button 54 is arranged on the web page 52.
  • a selection list 56 is provided, and the selection list 56 has three choices “Tokyo”, “Kanagawa”, and “Shizuoka”.
  • FIG. 11 is an explanatory diagram of an HTML source sentence 58 that constructs the web page 52 of FIG. In the web page 52 of FIG. 10, the jump destination when the map display button 54 is pressed is changed depending on the selection location of the selection list 56.
  • HTML source sentence 58 of Fig. 11 for constructing such a link page 52 form parts such as the map display button 54 and the selection list 56 are basically located on the 13th to 20th lines.
  • tags! 14 in this form statement It includes a SELECT> tag on the line and an INPUT> tag on the 19th line, and these tags are positioned as! / And the child tags of the ⁇ FORM> tag.
  • Fig. 12 is an explanatory diagram of the DOM tree 60 obtained by the DOM path analysis in the page analysis unit 22 shown in Fig. 1 of the HTML source sentence in Fig. 11, with siblings inside the ⁇ FORM> tag.
  • INPUT> tag and SELECT> tag are related, and the selection list 56 is constructed. Under the SELECT> tag, three options are supported.
  • OPTION> tag power It is arranged corresponding to Kanagawa Prefecture and Shizuoka Prefecture.
  • the process is basically the following procedure.
  • FIG. 13 shows a link destination URL notified before communication when an Internet 'Explorer (R) used in the link information detection unit 26 of FIG. 1 starts communication access to an arbitrary web page. It is explanatory drawing of the before-navigation 62 which is event information including.
  • BeforeNavigate is known as an event to be notified before starting communication to the website!
  • the link destination URL is set in the argument “url” on the third line.
  • the URL of the link destination is detected from the argument “url” in the event information of the before navigation 62.
  • FIG. 14 is an explanatory diagram of the link list table 30 of FIG. 1, in which URLs of link destinations detected by the link information detection unit 26 are stored!
  • the collection of link information in the present invention is performed by developing a web page by the browser 20 using a certain URL, and the web page by the page analysis unit 22, the event generation unit 24, and the link information detection unit 26.
  • the link list table expands the newly acquired link destination web page, and acquire the link destination URL when an event occurs for a form part that requires user operation on the web page. Repeat the acquisition.
  • a link destination URL when a link destination URL is detected from a page transition caused by an event occurrence for a form part existing in a currently deployed web page, a web page of the newly detected link destination URL is displayed. Open and do not collect link information in the hierarchical direction such as acquisition of the URL of the next link destination when an event of the form part of the page occurs, but repeat the collection of the URL of the next link destination in the Web page unit. If link information is collected in the hierarchy direction, after reaching the last web page, it must return to the original hierarchy, and the processing becomes complicated.
  • FIG. 15 is a flowchart of Internet information collection processing according to the present invention.
  • Figure 15 Oh! After acquiring a list of URLs collected by conventional web robots in step SI, select one URL from step S2 and launch browser 20 to open a web page in step S3. .
  • the opening of this web page by the browser is performed as a background process in the operation of the computer as the Internet information collecting apparatus 10 without actually developing the screen.
  • step S4 the page is analyzed with a DOM parser, etc., and an API that can generate an event in the event generator 24 is constructed.
  • step S 5 The link information detection process is executed by a pseudo operation when an event occurs.
  • step S6 it is checked whether or not there is an unprocessed URL for the URL read in step S1, and if there is an unprocessed URL, the process returns to step S2 and the same processing is repeated.
  • step S7 the process proceeds to step S7 to obtain a list of newly detected link destination URLs and link information from step S2 until there are no unprocessed URLs in step S8. Repeat the process for detection.
  • FIGS. 16 and 17 are flowcharts of the link information detection processing according to the present invention corresponding to step S5 of FIG.
  • step S1 in the link information detection process, the tag in the HTML tag sentence is manipulated in step S1, and whether or not the non-event occurrence tag power is checked in step S2.
  • Non-event occurrence tags include ⁇ A> tag, ⁇ IMG> tag, ⁇ LINK> tag, etc., shown on line 11 in Fig.4. If it is a non-event occurrence tag, proceed to step S3 to directly detect and save the link destination URL.
  • step S2 determines whether or not a non-event occurrence tag has been used. If it is determined in step S2 that a non-event occurrence tag has been used, the process proceeds to step S4, and it is determined whether or not it is a ⁇ FORM> tag. If it is a ⁇ FORM> tag, proceed to step S5 and check whether the form part is an operation button.
  • step S6 it is checked whether or not ⁇ INPUT> tag, and if it is ⁇ INPUT> tag, a list of generated events prepared in advance in step S7. By selecting and issuing one event in order from the corresponding script statement By executing, link destination URL is generated and page transition is made.
  • step S8 whether or not there is a page transition is checked in step S8. If there is a page transition, the link destination URL is acquired and stored in step S9. Note that the page transition in step S8 is the presence / absence of acquisition of before-navigation 62, which is event information acquired before communication in the case of Internet Explorer (R), as shown in FIG. In this case, the link destination URL is detected and saved.
  • step S7 The processing from step S7 is repeated until all event generations are completed in step S10. For all these events, only the event that is defined in the INPUT> tag in the HTML statement functions as a valid event, and the link destination URL is generated by executing the script statement.
  • step 11 in FIG. 17 it is checked whether or not the form part is a selection list. If it is a selection list, proceed to step S12 and operate all child tags within the range of ⁇ FORM> tags such as INPUT> ⁇ SELECT>.
  • step S13 INPUT> tag sibling SELECT> tag selection pattern is analyzed. In the case of Fig. 10 to Fig. 12, there are three types of this selection pattern.
  • step S14 the state of sibling tag SELECT> is changed according to the selection pattern.
  • step S15 one event is selected and issued for the current child tag INPUT>, and in step S16, whether or not a page transition has occurred is checked. If there is a page transition, the link destination URL is detected and stored in step S17. Subsequently, in step S18, it is checked whether or not all event occurrence end powers are satisfied, and the processing from step S15 is repeated until all event generation ends.
  • step S19 it is checked whether or not all selection patterns have been completed. If the selection pattern has not been completed, the process returns to step S14 and the state of sibling tag SELECT> is changed to the next selection pattern. , Steps S14 to S18 are repeated.
  • step S19 When processing for all the selected patterns is completed in step S19, the process proceeds to step S20, where it is checked whether processing has been completed for all tags. If not, the process returns to step S1 in FIG. The process is performed for the next tag, and thereafter, the processing of steps S1 to S20 is repeated until the processing is completed for all the tags.
  • the present invention also provides an Internet information collection program that is executed by the Internet information collection device 10 constituted by a computer. This program is a process according to the flowcharts of FIGS. 15 to 16 and FIG. It is constructed as a program with procedures.
  • FIG. 18 is a block diagram of another embodiment of the Internet information collecting apparatus according to the present invention.
  • the link information detection unit 26 provided in the application execution environment 18
  • the page transition force web information based on the link information generated by the event generated by the event generation unit 24 in the embodiment of FIG.
  • the web information of the link destination is detected and stored from the proxy server 64 accessed by the browser 20 functioning as the page browsing unit.
  • FIG. 19 is an explanatory diagram of URLs that cannot be extracted in the embodiment of FIG. 1 in which the user updates a static link in (1).
  • HTML source sentence 65 describes script part 66 on lines 3-5 and script sentence 67 on lines 6-8!
  • the split sentence 66 performs an operation of changing the image file to “over.gif” when the cursor passes over the image by a mouse operation or the like.
  • This split sentence 68 “over.gif” is a force that will be acquired from the website for the first time by the user's mouse operation. Nah ... this Therefore, in the embodiment of FIG. 1, it is impossible to detect the URL of a website having the file name “rover.gif” in the full path.
  • the next split sentence 67 performs the operation of returning the image file to “out.gif” when the cursor moves over or away from the image.
  • This “out.gif” is also acquired from the website for the first time by the user's mouse operation and is not a page transition operation. Therefore, the before-navigation event in the embodiment of FIG. 1 does not occur, and the URL can be acquired. Can not.
  • the Internet information collecting apparatus 10 uses the browser 20
  • the website 14-1 to 14-3 side is always accessed via the proxy server 64.
  • the problem is solved by focusing on the fact that the access information is stored on the file along with the HTTP response from the website and the HTTP response from the website.
  • the link information detection unit 26 generates the power of page transition by the before-navigation function. Access Sano 64, and obtain the URL of the file information power transition destination stored there with the full path and save it in the link list table 30.
  • FIG. 20 is an explanatory diagram of the processing operation of the embodiment of FIG. 18 for detecting and collecting the file power URL of the proxy server.
  • a fire event 68 occurs when the cursor is moved on the image based on the split sentence 68 shown in FIG. 19 by the Internet information collecting device 10, for example, an HTTP is sent from the browser 20 to the website 14 via the proxy server 64. Request 72 is sent.
  • the website 14 that has received this HTTP request 72 responds to the browser 20 through the proxy server 64 with the web page 74 of the file name “over.gifj” as the HTTP response 78.
  • Proxysano 64 when sending HTTP request 72 to website 14, access information 76 is stored in file 85, and website 14 also sends HTTP response 78 to browser 20. In this case, the access information 80 is stored in the file 85.
  • the first line of the access information 76 saved with the HTTP request 72 stores "over.gif" as the file name, and the third line stores the domain name "domain” of the website 14. Has been.
  • the link information detecting unit 20 provided in the Internet information collecting apparatus 10 shown in FIG. 18 refers to the file 85 of the proxy server 64, and starts with “HTTP: ZZ” and starts with the file name rover.gif. “Http: ZZdomain / over.gif” is detected as the URL 84 of the link destination of the full path showing up to and saved as shown in the record 82 of the link list table 30.
  • FIG. 21 is a flowchart of the Internet information collecting apparatus in the embodiment of FIG.
  • the processing of steps S1 to S8 is the same as the processing according to the embodiment of FIG. 1 shown in FIG.
  • the processing of steps S1 to S8 is completed, the processing of acquiring the full path URL from the proxy sano 64 and registering it in the link list table is executed in step S9. .

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

An Internet information collection device includes: a page analysis unit for analyzing the web page on the Internet opened on the screen by the page read unit and extracting an event operation tag sentence for dynamically generating link information in accordance with an event generated by user operation. A link information detection unit detects and stores web information on the link destination from the page transition by the link information generated by an event generation for an event operation tag sentence extracted in the page analysis unit by an event generation unit.

Description

明 細 書  Specification
インターネット情報収集装置、プログラム及び方法  Internet information collecting apparatus, program and method
技術分野  Technical field
[0001] 本発明は、画面展開したウェブページからリンク先のウェブ情報を収集するインター ネット情報収集装置、プログラム及び方法に関し、特に、ウェブページのタグ文を解 祈してリンク先のウェブ情報を収集するインターネット情報収集装置、プログラム及び 方法に関する。 背景技術  TECHNICAL FIELD [0001] The present invention relates to an Internet information collection apparatus, program, and method for collecting link destination web information from a web page that has been developed on a screen. The present invention relates to an Internet information collecting apparatus, a program, and a method for collecting. Background art
[0002] 近年、インターネット上のみで公開されて短時間で更新、削除されてしまうウェブべ ージを保存して一般に公開するウェブ図書館システムの構築が計画されており、この ようなシステムにあっては、インターネット上の情報資源の収集'蓄積を行うウェブァ 一カイビングと 、う技術が必要となる。  [0002] In recent years, it has been planned to construct a web library system that saves a web page that has been published only on the Internet and that has been updated and deleted in a short time, and that is publicly available. Therefore, it is necessary to have web archiving technology that collects and stores information resources on the Internet.
[0003] 従来のウェブァーカイビングでは、インターネットのウェブサイトがハイパーリンクとし てのウェブページの中に他のコンテンツへのリンク情報をもっていることから、このリン ク情報を元に、あるページ力 次のページへの遷移を判断して、関連するページの 情報を収集すると 、う方法が取られて 、る。  [0003] In conventional web archiving, the Internet website has link information to other contents in the web page as a hyperlink. Judging the transition to the next page and collecting the information of the related page, the method is taken.
[0004] 従来、インターネット上のコンテンツを自動収集するものとしてウェブロボットが知ら れており、ウェブロボットは、ウェブページの HTML文書を解析することでリンク情報 を収集し、階層的にウェブページの遷移を行ってコンテンツを収集し、過去にインタ 一ネット上で公開されたウェブページ情報をユーザが検索閲覧することを可能にして いる。  [0004] Conventionally, web robots are known to automatically collect content on the Internet. Web robots collect link information by analyzing HTML documents of web pages, and hierarchically transition web pages. To collect content and enable users to search and browse web page information previously published on the Internet.
特許文献 1 :特開 2002— 073609号公報  Patent Document 1: JP 2002-073609
特許文献 2:特開 2003 - 345826号公報  Patent Document 2: Japanese Patent Laid-Open No. 2003-345826
発明の開示  Disclosure of the invention
発明が解決しょうとする課題  Problems to be solved by the invention
[0005] ところで、近年のインターネットコンテンツは、ダイナミック HTMLとして知られたゥェ ブページに利用者との対話性をもたせる HTMLの拡張仕様として、 HTML文書の 中にスクリプトを埋め込むことにより、動的に外部リンクを生成しているものが増えてき ている。 [0005] By the way, Internet content in recent years has been known as dynamic HTML. As an extended specification of HTML that allows users to interact with users on a page, an increasing number of HTML documents that dynamically generate external links by embedding scripts in HTML documents.
[0006] 例えばウェブページに表示された選択メニューによって利用者に選択肢「1」から「3 」を示し、利用者の選択した選択肢に応じて異なるリンク先情報としての URLを生成 し、生成した URLのウェブページに遷移させている。  [0006] For example, the selection menu displayed on the web page indicates options “1” to “3” to the user, and generates URLs as different link destination information according to the options selected by the user. Transition to the web page.
[0007] しカゝしながら、従来のウェブページの HTML文書を解析してリンク情報を収集する 方法にあっては、対話性を持つコンテンツにおける利用者の操作によって生成され るリンク情報を検出することが困難であり、リンク情報の収集漏れが大きいという問題 がある。  [0007] However, in the conventional method of collecting link information by analyzing the HTML document of a web page, link information generated by user operation in interactive content is detected. There is a problem that the collection of link information is large.
[0008] 例えばユーザが選択メニュー力 選択した選択肢に応じてリンク先の URLを発生さ せるコードが記載されたウェブページでは、遷移先の URLがウェブページに記載さ れたコードからだけでは判断できな 、ため、遷移先のウェブ情報を収集できな 、と ヽ う問題がある。  [0008] For example, in the case of a web page that contains a code that generates a link destination URL according to the option selected by the user, the transition destination URL can be determined only from the code written on the web page. Therefore, there is a problem that it is not possible to collect the web information of the transition destination.
[0009] 勿論、ウェブページを開いた状態でオペレータが操作ボタンやメニュー選択などの 操作を行うことでリンク情報を検出することは可能であるが、人為的な操作を必要とす るために手間と時間がかかりすぎる問題がある。  [0009] Of course, it is possible for the operator to detect link information by performing an operation such as an operation button or menu selection while the web page is open, but it requires laborious operation. There is a problem that takes too much time.
[0010] 本発明は、利用者の操作により生成されるリンク情報を漏れなく自動収集するイン ターネット情報収集装置,プログラム及び方法を提供することを目的とする。 課題を解決するための手段  An object of the present invention is to provide an Internet information collection device, program, and method for automatically collecting link information generated by user operations without omission. Means for solving the problem
[0011] 本発明はインターネット情報収集装置を提供する。本発明のインターネット情報収 集装置は、 [0011] The present invention provides an Internet information collecting apparatus. The Internet information collection device of the present invention is
インターネット上のウェブページを取得して画面展開するページ閲覧部(ブラウザ) と、  A page browsing part (browser) that acquires web pages on the Internet and expands the screen,
ページ閲覧部で画面展開されたウェブページを解析し、利用者の操作により発生 するイベントに応じて動的にリンク情報を生成するイベント操作タグ文を抽出するぺ ージ解析部と、 ページ解析部で抽出されたイベント操作タグ文に対しイベントを発生させるイベント 発生部と、 A page analysis unit that analyzes a web page displayed on the page browsing unit and extracts event operation tag statements that dynamically generate link information according to an event generated by a user operation; An event generation unit that generates an event for the event operation tag sentence extracted by the page analysis unit;
イベント発生部による発生イベントで生成されたリンク情報によるページ遷移力 リ ンク先のウェブ情報を検出して保存するリンク情報検出部と、  Page transition force based on link information generated by event generated by event generation unit Link information detection unit for detecting and storing link destination web information,
を備えたことを特徴とする。  It is provided with.
[0012] ここで、リンク情報検出部は、更に、ページ閲覧部がアクセスしたプロキシサーバか らリンク先のウェブ情報を検出して保存する。  [0012] Here, the link information detection unit further detects and stores link destination web information from the proxy server accessed by the page browsing unit.
[0013] ページ解析部は、ウェブページを構築するタグ文の中のフォーム文で規定された範 囲からインプット文を抽出し、イベント発生部は、インプット文につき定義されている全 てのイベントを順次発生し、その中の有効イベントによりリンク情報を生成させる。  [0013] The page analysis unit extracts the input sentence from the range specified by the form sentence in the tag sentence that constructs the web page, and the event generation part displays all the events defined for the input sentence. It is generated sequentially, and link information is generated by a valid event in it.
[0014] またページ解析部は、ウェブページを構築するタグ文の中のフォーム文で規定され た範囲から利用者に選択肢を示すセレ外文と利用者操作を必要とするインプット文 を抽出し、イベント発生部は、セレクト文の選択肢を変更しながらインプット文に対しィ ベントを発生する。  [0014] In addition, the page analysis unit extracts an external sentence indicating options to the user and an input sentence that requires user operation from the range specified by the form sentence in the tag sentence that constructs the web page, and the event. The generator generates an event for the input sentence while changing the options of the select sentence.
[0015] 詳細には、ページ解析部は、ウェブページを構築するタグ文の中のフォームタグで 規定された範囲力もフォームタグの子供タグとなるインプットタグ、インプットタグの兄 弟タグとなる選択リストを作成するセレクトタグ、セレクトタグの子供タグとなる選択リスト の内容を示す複数のオプションタグを抽出し、イベント発生部は、セレクトタグ内の複 数のオプションタグを変更しながらインプットタグのイベントを発生する。  [0015] Specifically, the page analysis unit selects the input tag that is a child tag of the form tag and the selection tag that is a sibling tag of the input tag as well as the range power specified by the form tag in the tag sentence that constructs the web page. The selection tag that creates the selection tag and multiple selection options that indicate the contents of the selection list that is the child tag of the selection tag are extracted, and the event generator changes the multiple selection options tag and changes the event of the input tag. appear.
[0016] この場合もイベント発生部は、インプットタグにつき定義されている全てのイベントを 順次発生し、その中の有効イベントによりリンク情報を生成させる。  [0016] In this case as well, the event generation unit sequentially generates all the events defined for the input tag, and generates link information based on the valid events therein.
[0017] リンク情報検出部は、現在展開中のウェブページのイベント操作タグ文に対するィ ベント発生でページ遷移するウェブページのリンク情報を全て検出して保存した後に 、他のウェブページを画面展開してイベント操作タグ文に対するイベント発生でぺー ジ遷移するウェブページのリンク情報を取得して保存する処理を繰り返す。  [0017] The link information detection unit detects and saves all link information of the web page that transitions when an event occurs for the event operation tag statement of the currently deployed web page, and then develops another web page on the screen. Repeat the process of acquiring and saving the link information of the web page that changes the page when an event occurs for the event operation tag statement.
[0018] リンク情報検出部は、リンク先への通信前に通知される通信イベント情報からぺー ジ遷移せずに遷移するウェブページのリンク情報を検出する。 [0018] The link information detection unit detects link information of a web page that transitions without page transition from communication event information notified before communication to a link destination.
[0019] 本発明はインターネット情報収集プログラムを提供する。本発明のインターネット情 報収集プログラムは、コンピュータに、 The present invention provides an Internet information collection program. Internet information of the present invention Information gathering program
インターネット上のウェブページを取得して画面展開するページ閲覧ステップと、 ページ閲覧ステップで画面展開されたウェブページを解析し、利用者の操作により 発生するイベントに応じて動的にリンク情報を生成するイベント操作タグ文を抽出す るページ解析ステップと、  A page browsing step for acquiring web pages on the Internet and expanding the screen, and analyzing the web pages expanded in the page browsing step, and dynamically generating link information in response to events generated by user operations A page analysis step to extract event operation tag statements;
ページ解析ステップで抽出されたイベント操作タグ文に対 Wベントを発生させるィ ベント発生ステップと、  An event generation step for generating a W event in the event operation tag sentence extracted in the page analysis step;
イベント発生ステップによる発生イベントで生成されたリンク情報によるページ遷移 力 リンク先のウェブ情報を検出して保存するリンク情報検出ステップと、  Page transition force by link information generated by event generated by event generation step Link information detection step to detect and save link destination web information,
を実行させることを特徴とする。  Is executed.
[0020] 本発明はインターネット情報収集方法を提供する。本発明のインターネット情報収 集方法は、  [0020] The present invention provides a method for collecting Internet information. The Internet information collection method of the present invention includes:
インターネット上のウェブページを取得して画面展開するページ閲覧ステップと、 ページ閲覧ステップで画面展開されたウェブページを解析し、利用者の操作により 発生するイベントに応じて動的にリンク情報を生成するイベント操作タグ文を抽出す るページ解析ステップと、  A page browsing step for acquiring web pages on the Internet and expanding the screen, and analyzing the web pages expanded in the page browsing step, and dynamically generating link information in response to events generated by user operations A page analysis step to extract event operation tag statements;
ページ解析ステップで抽出されたイベント操作タグ文に対 Wベントを発生させるィ ベント発生ステップと、  An event generation step for generating a W event in the event operation tag sentence extracted in the page analysis step;
イベント発生ステップによる発生イベントで生成されたリンク情報によるページ遷移 力 リンク先のウェブ情報を検出して保存するリンク情報検出ステップと、  Page transition force by link information generated by event generated by event generation step Link information detection step to detect and save link destination web information,
を備えたことを特徴とする。  It is provided with.
[0021] なお、本発明のインターネット情報収集プログラム及び方法の詳細は、本発明のィ ンターネット情報収集装置と基本的に同じになる。 [0021] The details of the Internet information collection program and method of the present invention are basically the same as those of the Internet information collection apparatus of the present invention.
発明の効果 The invention's effect
本発明によれば、ページ閲覧部で画面展開されたウェブページのボタンや選択リス トに対するマウス操作、キーボード操作を必要とする利用者の操作によって発生する イベントに応じてスクリプト文等の実行で動的に生成される URLによるページ遷移を 、アプリケーションでイベントを発生させることによる擬似的な操作で実現し、 HTML 文書の解析では検出できな力つた利用者の操作によって遷移するリンク情報を検出 することができ、欠落のな!、インターネット上のウェブ情報の収集が可能となる。 According to the present invention, the script is executed by executing a script sentence or the like according to an event generated by a user operation requiring a mouse operation or a keyboard operation of a button or a selection list of a web page expanded on the page browsing unit. Page transition by automatically generated URL It is realized by a pseudo operation by generating an event in the application, and it is possible to detect the link information that is transitioned by the powerful user operation that cannot be detected by analyzing the HTML document. Web information can be collected.
[0023] またリンク先のコンテンツについても、同様にアプリケーションによるイベントの発生 による擬似的な操作でリンク情報を検出し、これを繰り返すことで、インターネットで公 開されて 、る全ての情報を収集することが可能となる。  [0023] For link destination content, link information is similarly detected by a pseudo operation caused by an event generated by an application, and by repeating this, all information that is published on the Internet is collected. It becomes possible.
[0024] 更に、擬似的な操作で発生できない例えばマウス通過などで発生するイベントにつ いては、ブラウザがアクセスするプロキシサーバにリンク先の URL情報が保存されて いることから、プロキシサーノ からリンク情報として URLを取得することで、展開された ウェブページ力も漏れなくインターネット上のウェブ情報を収集できる。  [0024] Further, for events that cannot be generated by a pseudo operation, for example, when the mouse passes, the link destination URL information is stored in the proxy server accessed by the browser. By acquiring the URL, it is possible to collect web information on the Internet without omission of deployed web page power.
図面の簡単な説明 Brief Description of Drawings
[0025] [図 1]本発明によるインターネット情報収集装置のブロック図 [0025] [FIG. 1] Block diagram of an Internet information collecting apparatus according to the present invention.
[図 2]図 1のインターネット情報収集装置が実現されるコンピュータのハードウェア環 境のブロック図  [Figure 2] Block diagram of the hardware environment of a computer that implements the Internet information collection device of Figure 1
[図 3]本発明でイベント発生対象とするフォーム部品を配置したウェブページの説明 図  FIG. 3 is an explanatory diagram of a web page on which form parts to be events are generated according to the present invention.
[図 4]図 3のウェブページを構築する HTMLソース文の説明図  [Figure 4] Explanatory diagram of the HTML source text that builds the web page in Figure 3
[図 5]図 3の HTMLソース文の DOMパースによる解析で得られた DOMツリーの説 明図  [Figure 5] Illustration of DOM tree obtained by parsing HTML source sentence of Figure 3 using DOM parsing
[図 6]Aタグに対応した発生イベントのイベント一覧の説明図  [Figure 6] Explanatory drawing of the list of events that occurred corresponding to the A tag
[図 7]スクリプトを起動させるイベントを記述した HTMLの説明図  [Figure 7] HTML explanatory diagram describing the event that triggers the script
[図 8]図 1のイベント管理テーブルの説明図  [Figure 8] Explanatory diagram of the event management table in Figure 1
[図 9]インターネットエクスプローラ (R)で提供されるイベント実行メソッドであるフアイ やイベントの HTMLソース文の説明図  [Figure 9] Explanatory diagram of the HTML source text of the event and event execution methods provided by Internet Explorer (R)
[図 10]本発明でイベント発生対象とする選択リストと操作ボタンを配置したウェブべ一 ジの説明図  [FIG. 10] An explanatory diagram of a web page in which a selection list and operation buttons for event generation are arranged according to the present invention.
[図 11]図 10のウェブページを構築する HTMLソース文の説明図 [図 12]図 11の HTMLソース文の DOMパースによる解析で得られた DOMツリーの 説明図 [Figure 11] Explanatory diagram of the HTML source text that builds the web page in Figure 10 [Figure 12] Illustration of DOM tree obtained by parsing HTML source sentence in Figure 11 using DOM parsing
[図 13]インターネットエクスプローラ (R)で通信前に通知されるリンク先 URLを含むィ ベント情報であるビフォヮナビゲートの説明図  [Figure 13] Explanatory diagram of before-navigation, which is event information including the link destination URL notified before communication with Internet Explorer (R)
[図 14]図 1のリンク一覧テーブルの説明図  [Fig.14] Explanation of link list table in Fig.1
[図 15]本発明によるインターネット情報収集処理のフローチャート  FIG. 15 is a flowchart of Internet information collection processing according to the present invention.
[図 16]図 15のリンク情報検出処理のフローチャート  FIG. 16 is a flowchart of the link information detection process of FIG.
[図 17]図 16に続くリンク情報検出処理のフローチャート  FIG. 17 is a flowchart of link information detection processing following FIG.
[図 18]本発明によるインターネット情報収集装置の他の実施形態のブロック図  FIG. 18 is a block diagram of another embodiment of the Internet information collecting apparatus according to the present invention.
[図 19]図 1のインターネット情報収集装置で抽出できない URLの説明図  [Figure 19] Illustration of URLs that cannot be extracted by the Internet information collection device in Figure 1
[図 20]プロキシサーバのファイル力も URLを収集する図 18の実施形態の処理動作 の説明図  [FIG. 20] Explanatory diagram of processing operation of the embodiment of FIG.
[図 21]図 18の実施形態におけるインターネット情報収集処理のフローチャート 発明を実施するための最良の形態  FIG. 21 is a flowchart of internet information collection processing in the embodiment of FIG. 18. BEST MODE FOR CARRYING OUT THE INVENTION
[0026] 図 1は本発明によるインターネット情報収集装置の機能構成の実施形態を示したブ ロック図である。図 1において、本発明のインターネット情報収集装置 10は、例えばコ ンピュータで構成されており、インターネット 12を介して、情報収集先となるウェブサイ ト 14 1, 14 2, 14— 3と接続することができる。 FIG. 1 is a block diagram showing an embodiment of a functional configuration of an Internet information collecting apparatus according to the present invention. In FIG. 1, an Internet information collecting apparatus 10 of the present invention is composed of, for example, a computer and can be connected to websites 14 1, 14 2, 14-3 as information collecting destinations via the Internet 12. it can.
[0027] インターネット情報収集装置 10には通信制御部 16とアプリケーション実行環境 18 が設けられる。通信制御部 16はインターネット 12を介して、ウェブサイト 14— 1〜14 3との間でウェブページ検索閲覧のための通信制御を行う。 The Internet information collecting apparatus 10 is provided with a communication control unit 16 and an application execution environment 18. The communication control unit 16 performs communication control for browsing and browsing web pages with the websites 14-1 to 14 3 via the Internet 12.
[0028] アプリケーション実行環境 18はコンピュータによるプログラムの実行で実現されてお り、ブラウザ 20、ページ解析部 22、イベント発生部 24、リンク情報検出部 26、ィベン ト管理テーブル 28、リンク一覧テーブル 30及びコンテンツ取得部 32を備えている。 [0028] The application execution environment 18 is realized by executing a program by a computer, and includes a browser 20, a page analysis unit 22, an event generation unit 24, a link information detection unit 26, an event management table 28, a link list table 30, and A content acquisition unit 32 is provided.
[0029] インターネット情報収集装置 10のアプリケーション実行環境 18に設けているブラウ ザ 20はページ閲覧部として機能し、インターネット 12を介してウェブサイト例えばゥェ ブサイト 14 1のウェブページを取得して画面展開する。 [0029] The browser 20 provided in the application execution environment 18 of the Internet information collecting apparatus 10 functions as a page browsing unit, acquires a web page of a website, for example, the website 14 1 via the Internet 12, and develops a screen. To do.
[0030] ページ解析部 22はページ閲覧部として機能するブラウザ 22で画面展開されたゥェ ブページを解析し、利用者の操作により発生するイベントに応じて動的にリンク情報 を生成するイベント操作タグ文を抽出する。 [0030] The page analysis unit 22 uses the browser 22 that functions as a page browsing unit. The page operation is analyzed, and event operation tag statements that dynamically generate link information according to events generated by user operations are extracted.
[0031] このイベント操作タグ文とは、ウェブページを構築する HTMLソース文の中に配置 したマウス操作やキーボード操作を必要とするラジオボタンや選択リスト等を構築する タグ文であり、具体的にはく FORM >タグで示されるフォーム文を抽出する。  [0031] This event operation tag sentence is a tag sentence that constructs a radio button or a selection list that requires mouse operation or keyboard operation, which is arranged in an HTML source sentence that constructs a web page. Extracts the form sentence indicated by the FORM> tag.
[0032] イベント発生部 24は、ページ解析部 22で抽出されたイベント操作タグ文に対し、利 用者の操作に伴ってリンク先の LRUを動的に発生するスクリプト文を実行させるィべ ントを発生する。イベント管理テーブル 28には、イベント発生部 24で発生するィベン トの一覧が、イベント発生対象となるタグに対応して格納されて 、る。  [0032] The event generation unit 24 executes an event that executes a script statement that dynamically generates a link destination LRU in response to a user operation on the event operation tag statement extracted by the page analysis unit 22. Is generated. In the event management table 28, a list of events generated by the event generation unit 24 is stored in correspondence with the tags for which events are generated.
[0033] このイベント発生部 24によるイベント操作タグ文に対するイベントの発生力 ウェブ ページ上に配置されているボタンや選択リストなどの操作部品であるフォーム部品を 利用者がマウスやキーボードで操作した場合と同様に操作する擬似的操作を行わせ ることになる。  [0033] Generating power of event for event operation tag sentence by event generation unit 24 When a user operates a form part such as a button or a selection list arranged on a web page with a mouse or a keyboard. A pseudo operation that operates in the same manner will be performed.
[0034] リンク情報検出部 26は、イベント発生部 24による発生イベントによるスクリプト文の 実行で生成されたページ遷移力 リンク先のウェブページ情報、即ちリンク先の URL を検出してリンク一覧テーブル 30に保存する。  [0034] The link information detection unit 26 detects the page transition force link page information generated by the execution of the script statement by the event generated by the event generation unit 24, that is, the link destination web page information, that is, the link destination URL. save.
[0035] コンテンツ取得部 32は、リンク先 URLの収集が完了した時点でリンク一覧テーブル 30から URLを順次取り出して、リンク先のウェブサイトに接続し、ウェブサイトのウェブ ページを取得して、データベースに保存する。  [0035] When the collection of link destination URLs is completed, the content acquisition unit 32 sequentially extracts the URLs from the link list table 30, connects to the link destination website, acquires the web page of the website, and acquires the database. Save to.
[0036] 図 1における本発明のインターネット情報収集装置 10は、例えば図 2のようなコンビ ユータのハードウェア資源により実現される。図 2のコンピュータにおいて、 CPU100 のバス 101には RAM102、ハードディスクドコントローラ(ソフト) 104、フロッピィディ スクドライバ(ソフト) 110、 CD— ROMドライバ(ソフト) 114、マウスコントローラ 118、 キーボードコントローラ 122、ディスプレイコントローラ 126、通信用ボード 130が接続 される。  [0036] The Internet information collecting apparatus 10 of the present invention in FIG. 1 is realized by, for example, hardware resources of a computer as shown in FIG. In the computer shown in FIG. 2, the CPU 101 has a bus 101 with RAM 102, hard disk controller (software) 104, floppy disk driver (software) 110, CD-ROM driver (software) 114, mouse controller 118, keyboard controller 122, display controller. 126, communication board 130 is connected.
[0037] ハードディスクコントローラ 104はハードディスクドライブ 106を接続し、本発明のィ ンターネット情報収集プログラムをローデイングしており、コンピュータの起動時にハ ードディスクドライブ 106から必要なプログラムを呼び出して、 RAM102上に展開し、 CPU 100により実行する。 [0037] The hard disk controller 104 is connected to the hard disk drive 106 and loads the Internet information collection program of the present invention. When the computer is started, the necessary program is called from the hard disk drive 106 and stored in the RAM 102. Expand, Executed by CPU 100.
[0038] フロッピィディスクドライバ 110にはフロッピィディスクドライブ(ハード) 112が接続さ れ、フロッピィディスク (R)に対する読み書きができる。 CD— ROMドライバ 114に対 しては、 CDドライブ (ノヽード) 116が接続され、 CDに記憶されたデータやプログラム を読み込むことができる。  [0038] A floppy disk drive (hardware) 112 is connected to the floppy disk driver 110, and can read and write to the floppy disk (R). A CD drive (node) 116 is connected to the CD-ROM driver 114, and data and programs stored on the CD can be read.
[0039] マウスコントローラ 118はマウス 120の入力操作を CPU100に伝える。キーボードコ ントローラ 122はキーボード 124の入力操作を CPU100に伝える。ディスプレイコント ローラ 126は表示部 128に対して表示を行う。通信用ボード 130は無線を含む通信 回線 132を使用し、インターネット等のネットワークを介してウェブサイトのサーバとの 間で通信を行う。  The mouse controller 118 transmits an input operation of the mouse 120 to the CPU 100. The keyboard controller 122 transmits the input operation of the keyboard 124 to the CPU 100. The display controller 126 performs display on the display unit 128. The communication board 130 uses a communication line 132 including radio, and communicates with a website server via a network such as the Internet.
[0040] 図 3は本発明でイベント発生対象とするフォーム部品を配置したウェブページの説 明図である。図 3のウェブページ 34にあっては、リンク URL36が配置され、その下に 操作ボタン 38と操作ボタン 40が配置されて!、る。  FIG. 3 is an explanatory diagram of a web page on which form parts that are subject to event generation in the present invention are arranged. In the web page 34 of FIG. 3, a link URL 36 is arranged, and an operation button 38 and an operation button 40 are arranged below it.
[0041] ウェブページ 34におけるリンク URL36を利用者が例えばマウスクリックすると、「a. htmljのウェブページに遷移する。また利用者が操作ボタン 38を押し下げ操作する と「b. html」のウェブページに遷移し、更に操作ボタン 40を利用者が押し下げ操作 すると「c. html」のウェブページに遷移する。  [0041] When the user clicks the link URL 36 on the web page 34 with a mouse, for example, the screen transitions to the “a.htmlj web page. When the user depresses the operation button 38, the web page“ b.html ”is displayed. Then, when the user further presses down the operation button 40, the screen changes to the web page “c.html”.
[0042] 図 4は図 3のウェブページ 34を構築する HTMLソース文の説明図である。図 4の H TMLソース文 42において、図 3のウェブページ 34におけるリンク URL36は、 11行 目の Aタグの機能により「a. html」へジャンプを行う。この HTMLソース文 42の 11行 目の Aタグによるリンク先「a. html」については、従来のように HTMLソース文 42を 解析することで直接、検出することができる。  FIG. 4 is an explanatory diagram of an HTML source sentence for constructing the web page 34 of FIG. In the HTML source sentence 42 in FIG. 4, the link URL 36 in the web page 34 in FIG. 3 jumps to “a.html” by the function of the A tag on the 11th line. The link destination “a.html” by the A tag on the 11th line of the HTML source sentence 42 can be directly detected by analyzing the HTML source sentence 42 as in the past.
[0043] 図 3のウェブページ 34の操作ボタン 38, 40は、図 4の HTMLソース文 42における 12〜 15行目の < FORM >タグで囲まれた範囲のフォーム文により構築される。この フォーム文にあっては、例えば図 3のウェブページ 34で利用者が操作ボタン 38のボ タン押し下げの操作を行うと、 HTMLソース文 42の 13行目における「011じ1^^」ィベ ントが発生し、ここに定義されて 、る「"; jump () "J関数が呼び出される。  [0043] The operation buttons 38 and 40 on the web page 34 in FIG. 3 are constructed by a form sentence in a range surrounded by <FORM> tags on the 12th to 15th lines in the HTML source sentence 42 in FIG. In this form sentence, for example, when the user presses down the operation button 38 on the web page 34 in FIG. 3, the “011 1 ^^” event on the 13th line of the HTML source sentence 42 is displayed. Event occurs, and the ""; jump () "J function defined here is called.
[0044] この jump関数では、 3〜8行目のスクリプト文を対象に、 INPUTタグの id属性値を 利用してリンク先の URLを作成し、 locationオブジェクトを変更することで、ページ遷 移を行っている。 [0044] In this jump function, the id attribute value of the INPUT tag is set for the script statements on the 3rd to 8th lines. The page transition is done by creating the URL of the link destination and changing the location object.
[0045] このようにフォーム文における利用者の操作に伴うイベント発生で動的にスクリプト 文によってリンク先の URLを発生するタグ文につ!、ては、 HTMLソース文 42そのも のを解析しても、リンク先の URLである「b. html」及び「c. html」を検出することはで きない。  [0045] In this way, a tag statement that dynamically generates a link destination URL by a script statement when an event occurs in response to a user operation in a form statement! Analyzes the HTML source statement 42 itself. However, “b. Html” and “c.
[0046] そこで本発明にあっては、図 1のインターネット情報収集装置 10のアプリケーション 実行環境 18に設けているページ解析部 22により、図 4に示す HTMLソース文 42を 解析して、アプリケーションとして機能するイベント発生部 24により操作可能な図 5に 示す DOMツリー 44を構築し、イベント発生部 24により INPUTタグに対しイベント発 生部 24力も直接、イベント onclickを発生させ、スクリプト文の実行により、リンク先の URL「b. html」及び「c. html」のページ遷移を行わせ、このページ遷移に伴うリンク 先の情報としてリンク先の URLを検出する。  Therefore, in the present invention, the page analysis unit 22 provided in the application execution environment 18 of the Internet information collecting apparatus 10 in FIG. 1 analyzes the HTML source sentence 42 shown in FIG. 4 and functions as an application. The DOM tree 44 shown in Fig. 5 that can be operated by the event generation unit 24 is constructed, and the event generation unit 24 directly generates an event onclick for the INPUT tag by the event generation unit 24, and the link is made by executing the script statement. The page transitions of the previous URLs “b.html” and “c.html” are performed, and the link destination URL is detected as link destination information associated with this page transition.
[0047] ここで図 1に示したページ解析部 22は、ブラウザ 20を対象とした SDK (Software Development Kit)を備えており、 SDKはアプリケーション ·プログラミング 'インタ 一フェース (以下「API」 t\、う)を利用してソフトウェアを構築するツールである。  [0047] Here, the page analysis unit 22 shown in FIG. 1 has an SDK (Software Development Kit) for the browser 20, and the SDK is an application programming interface (hereinafter referred to as “API” t \, This is a tool for building software using
[0048] 具体的にはブラウザ 20により展開されたウェブページの HTMLソース文 42を解析 する DOMパーサを備え、この DOMバーサにより HTMLソース文を解析し、図 5に 示す DOMツリー 44を持ったドキュメント 'オブジェクト 'モデル DOMを生成する。 DO Mツリー 44で示されるドキュメント 'オブジェクト 'モデル DOMは、 HTMLタグ文をッ リー構造のノードオブジェクトの集合としてアクセスするための APIである。  [0048] Specifically, it has a DOM parser that parses the HTML source sentence 42 of the web page expanded by the browser 20, parses the HTML source sentence with this DOM parser, and has a DOM tree 44 shown in Fig. 5. Generate an 'object' model DOM. The document 'object' model DOM shown in the DOM tree 44 is an API for accessing HTML tag statements as a collection of tree-structured node objects.
[0049] この図 5に示す DOMツリー 44としてのドキュメントオブジェクトモデルの生成により、 フォームタグの中にある INPUTタグに対し、プログラムとしてのイベント発生部 24か ら直接、 onclickイベントを発生して、スクリプト文の実行によりリンク先の URLを生成 してページ遷移させることができる。  [0049] By generating the document object model as the DOM tree 44 shown in Fig. 5, the onclick event is generated directly from the event generator 24 as a program for the INPUT tag in the form tag, and the script By executing a statement, you can generate a link destination URL and change the page.
[0050] 即ち、図 4の HTMLソース文 42におけるフォーム文における 13行目と 14行目の I NPUTタグの onclickイベントは、本来は図 3のウェブページ 34に示す押しボタン 38 , 40の操作によってボタン押し下げ操作を行うことでイベントが発生し、 3〜8行目の スクリプト文における JavaScriptの関数が呼び出されるという仕組みである。 [0050] That is, the onclick event of the 13th and 14th line I NPUT tags in the form sentence in the HTML source sentence 42 in FIG. 4 is originally generated by operating the push buttons 38 and 40 shown in the web page 34 in FIG. An event occurs when the button is pressed down. It is a mechanism in which JavaScript functions in script statements are called.
[0051] これに対し本発明にあっては、ページ解析部 22に設けているソフトウェア ·ディべ口 ップメント 'キット SDKにおける DOMバーサ(DOM解析手段)を利用して、図 5の D OMツリー 44に示すようなツリー構造を持つノードオブジェクトの集合に対しアクセス するための APIであるドキュメントオブジェクトモデル DOMを構築することで、プログ ラムとしてのイベント発生部 24から直接、イベント onclickを発生してスクリプト文を実 行して「b. html」及び「c. html」を生成し、ページ遷移させることができる。これは利 用者によるボタン押し下げ操作をプログラムが擬似的に行うことを意味する。  [0051] On the other hand, in the present invention, the software development 'kit SDK provided in the page analysis unit 22 uses the DOM parser (DOM analysis means) in the kit SDK. By building the document object model DOM, which is an API for accessing a set of node objects having a tree structure as shown in Fig. 1, the event onclick is generated directly from the event generator 24 as a program and the script text Can be executed to generate “b.html” and “c.html” to change pages. This means that the program simulates a button-down operation by the user.
[0052] ところで、図 4の 13行目及び 14行目の INPUTタグに対し発生するイベントとして、 この実施形態にあっては「onclick」を有効なイベントとして発生させて 、るが、タグ文 で使用されるイベントには、利用者の操作に対応して様々な種類のものがある。  By the way, as an event that occurs for the INPUT tags on the 13th and 14th lines in FIG. 4, in this embodiment, “onclick” is generated as a valid event. There are various types of events used in response to user operations.
[0053] 図 6は図 4の 11行目のリンク設定に使用される Aタグに対応して定義されているィ ベントの種類を示した Aタグ発生イベントリスト 46の説明図である。  FIG. 6 is an explanatory diagram of the A tag occurrence event list 46 showing the types of events defined corresponding to the A tag used for the link setting on the 11th line in FIG.
[0054] この Aタグイベント発生リスト 46に示すように、 Aタグだけでも 17種類のイベントを発 生させている。この発生イベントの種類は、図 4の 13, 14行目のそれぞれに示した IN PUTタグにっ 、てもほぼ同様に定義されて 、る。  [0054] As shown in the A tag event occurrence list 46, 17 types of events are generated only by the A tag. The types of events that occur are defined in the same way even if the IN PUT tags shown in lines 13 and 14 of Fig. 4 are used.
[0055] この Aタグ発生イベントリスト 46について、図 7のスクリプト起動 HTMLソース文 48 に示すように記述された場合、イベント onclickを発生することによりスクリプト文を起 動させることができるが、それ以外のイベントについては、イベントを発生しても、すぐ に破棄されること〖こなる。  [0055] If this A tag occurrence event list 46 is described as shown in script activation HTML source statement 48 in Fig. 7, the script statement can be activated by generating event onclick. For these events, even if an event occurs, it will be discarded immediately.
[0056] このような HTMLタグ文における不必要なイベントは自動的に破棄するという仕組 みを利用し、本発明にあっては、フォーム文力 抽出されたイベント発生対象となるタ グに対し、そのタグについて定義されている一覧の中の全てのイベントを発生させ、 図 7のように定義されて 、るイベントのみを実行させると!、う方法をとつて 、る。  [0056] Utilizing such a mechanism that automatically discards unnecessary events in HTML tag sentences, in the present invention, for the tags that are subject to event generation, the form sentence power of which is extracted, When all the events in the list defined for the tag are generated and only the event defined as shown in Fig. 7 is executed, this method is used.
[0057] このようにイベント発生対象となるタグに対応して定義されて!ヽるイベントリストにお ける全てのイベントを発生させ、実際にスクリプト文を実行させたイベントを知ることで 、特定の有効イベントを意識することなぐスクリプト文をイベント発生で実行できる。  [0057] In this way, all events in the event list that are defined corresponding to the event generation target tags are generated, and by knowing the event that actually executed the script statement, a specific event can be obtained. Script statements without being aware of valid events can be executed when an event occurs.
[0058] また、全てのイベントを発生してスクリプト文を実行させることにより認識された有効 イベントについては、図 8のように、イベント管理テーブル 28にタグ名に対応して有効 イベントを登録する。図 8のように、イベント管理テーブル 28に登録されたタグ名に対 応した有効イベントについては、統計的な情報として、以降のタグに対するイベント発 生に利用することが可能である力 基本的にはタグに対し対応する全てのイベントを 発生させる処理を行うことになる。 [0058] In addition, the validity recognized by generating all the events and executing the script sentence For events, valid events are registered in the event management table 28 corresponding to the tag names as shown in FIG. As shown in Figure 8, the effective event corresponding to the tag name registered in the event management table 28 can be used as statistical information for event generation for subsequent tags. Will process all corresponding events for the tag.
[0059] ここで図 1のブラウザ 20としてインターネット 'エクスプローラ (R)を使用した場合、プ ログラムにより直接イベントを発生するメソッドとして、図 9に示すように「フアイャィベン ト(fireEvent)」と!ヽぅメソッドが準備されて 、る。  [0059] Here, when Internet 'Explorer (R) is used as the browser 20 in FIG. 1, as a method for directly generating an event by a program, as shown in FIG. 9, "fireEvent" and! ヽ ぅThe method is prepared.
[0060] このフアイャイベントのメソッドは、図 9のフアイャイベント HTMLソース文 50に示す ように、例えば全てのタグに対し 3行目と 4行目に示すようにフォーカスの設定である「 onfocusjと解除である「ondlur」を行うことで、全てのタグに対し直接イベントを発行 することができ、これによつて利用者が擬似的に操作したと同様なスクリプト文の実行 によるリンク先 URLの生成が行われ、ページ遷移を行うことができる。  [0060] The method of the fire event is, as shown in the fire event HTML source statement 50 of Fig. 9, for example, the focus setting "onfocusj" as shown in the 3rd and 4th lines for all tags. By performing “ondlur”, which is a release, it is possible to issue an event directly to all tags, and as a result, the URL of the link destination URL by executing the script statement similar to the user's pseudo operation is executed. Generation is performed and page transition can be performed.
[0061] 図 10は本発明でイベント発生対象とする選択リストと操作ボタンを配置したウェブべ ージの説明図である。図 10において、ウェブページ 52には地図表示ボタン 54が配 置される。地図表示ボタン 54に対応して選択リスト 56が設けられ、選択リスト 56は「東 京都」「神奈川県」「静岡県」の 3つの選択肢を持っている。  FIG. 10 is an explanatory diagram of a web page in which a selection list to be an event generation target and operation buttons are arranged in the present invention. In FIG. 10, a map display button 54 is arranged on the web page 52. Corresponding to the map display button 54, a selection list 56 is provided, and the selection list 56 has three choices “Tokyo”, “Kanagawa”, and “Shizuoka”.
[0062] 図 11は図 10のウェブページ 52を構築する HTMLソース文 58の説明図である。図 10のウェブページ 52にあっては、選択リスト 56の選択場所によって、地図表示ボタ ン 54を押したときのジャンプ先が変更となる。  FIG. 11 is an explanatory diagram of an HTML source sentence 58 that constructs the web page 52 of FIG. In the web page 52 of FIG. 10, the jump destination when the map display button 54 is pressed is changed depending on the selection location of the selection list 56.
[0063] 即ち、選択リスト 56の「東京都」を選択した状態で地図表示ボタン 54を押した場合、 リンク先として「東京都. html」へジャンプする。また選択リスト 56で「神奈川県」を選 んだ状態で地図表示ボタン 54を押した場合は、リンク先として「神奈川県. html」へ ジャンプする。更に、選択リスト 56で「静岡県」を選んだ状態で地図表示ボタン 54を 押すと、リンク先として「静岡県. html」へジャンプする。  That is, when the map display button 54 is pressed while “Tokyo” in the selection list 56 is selected, a jump is made to “Tokyo.html” as the link destination. If the map display button 54 is pressed while “Kanagawa” is selected in the selection list 56, the link jumps to “Kanagawa. Html”. Furthermore, when the map display button 54 is pressed with “Shizuoka Prefecture” selected in the selection list 56, the link jumps to “Shizuoka Prefecture.html”.
[0064] このようなリンクページ 52を構築する図 11の HTMLソース文 58にあっては、地図 表示ボタン 54と選択リスト 56といったフォーム部品は、基本的に 13〜20行目のく F ORM >タグで括られたフォーム文により作られて!/、る。このフォーム文の中には 14 行目のく SELECT >タグや 19行目のく INPUT >タグが含まれており、これらのタ グは < FORM >タグの子供タグと!/、う位置付けになる。 [0064] In the HTML source sentence 58 of Fig. 11 for constructing such a link page 52, form parts such as the map display button 54 and the selection list 56 are basically located on the 13th to 20th lines. Made with a form sentence enclosed in tags! 14 in this form statement It includes a SELECT> tag on the line and an INPUT> tag on the 19th line, and these tags are positioned as! / And the child tags of the <FORM> tag.
[0065] この例では、 19行目の <INPUT>タグで配置される地図表示ボタン 54を押す時 点で、兄弟タグとなる 14〜 18行目のく SELECT >タグのセレクト文の中に選択状 態が 3パターン存在して 、る。 [0065] In this example, when the map display button 54 placed in the <INPUT> tag on the 19th line is pressed, the sibling tag is selected in the 14th to 18th lines in the SELECT> tag select statement. There are 3 states.
[0066] このため、地図表示ボタン 54を示すく INPUT>タグを検出した際に、兄弟タグで あるく SELECT >タグの 3つのパターンを示す 15〜 17行目のく OPTION >タグを 求めることで、 3つの選択パターンがあることが解析できる。 [0066] Therefore, when the INPUT> tag indicating the map display button 54 is detected, the OPTION> tag on the 15th to 17th lines indicating the three patterns of the sibling tag SELECT> tag is obtained. It can be analyzed that there are three selection patterns.
[0067] したがって、地図表示ボタン 54であるく INPUT>タグに擬似的にイベントを発生 するためには 3回の反復処理を行 、、その都度く SELECT >タグのく OPTION > タグによる選択状態を変更させて、く INPUT>タグにイベントを発生させればよい。 [0067] Therefore, in order to generate a pseudo event in the INPUT> tag using the map display button 54, iterate three times, each time selecting the option with the SELECT> tag OPTION> tag. Change it and generate an event in the INPUT> tag.
[0068] 図 12は図 11の HTMLソース文の図 1に示したページ解析部 22における DOMパ ースによる解析で得られた DOMツリー 60の説明図であり、 < FORM >タグの中に 兄弟関係にあるく INPUT >タグとく SELECT >タグが存在し、選択リスト 56を構築 するく SELECT>タグの下には 3つの選択肢に対応してく OPTION>タグ力 選 択内容である「東京都」「神奈川県」「静岡県」に対応して配置されている。 [0068] Fig. 12 is an explanatory diagram of the DOM tree 60 obtained by the DOM path analysis in the page analysis unit 22 shown in Fig. 1 of the HTML source sentence in Fig. 11, with siblings inside the <FORM> tag. INPUT> tag and SELECT> tag are related, and the selection list 56 is constructed. Under the SELECT> tag, three options are supported. OPTION> tag power It is arranged corresponding to Kanagawa Prefecture and Shizuoka Prefecture.
[0069] 即ち、その処理としては基本的に次の手順となる。 That is, the process is basically the following procedure.
• 図 11の HTMLソース文 58におけるすべてのタグを操作する。  • Manipulate all tags in HTML source sentence 58 in Figure 11.
• < FORM >タグを半 U定する。  • Set the <FORM> tag semi-U.
• < FORM >タグの範囲内の全ての子タグであるく INPUT > < SELECT >など を調べ、兄弟タグの選択パターンの状態を調べる。  • Check all child tags within the <FORM> tag range, such as INPUT> <SELECT>, and check the status of sibling tag selection patterns.
• < SELECT >につ!/、て求めたパターンの数分、パターンに則って兄弟タグの状 態を変更した後、現在の子供タグであるく INPUT >に対しイベントを発行し、 3〜1 0行目のスクリプト文の実行によりリンク先の URLを発生する。  • After changing the state of the sibling tag according to the pattern for the number of patterns obtained from <SELECT> !, issue an event to the current child tag, INPUT>, 3 to 1 The link destination URL is generated by executing the script statement on the 0th line.
[0070] 図 13は、図 1のリンク情報検出部 26で利用するインターネット 'エクスプローラ (R) において、任意のウェブページに通信アクセスを開始した際に、その通信前に通知さ れるリンク先 URLを含むイベント情報であるビフォヮナビゲート 62の説明図である。  [0070] FIG. 13 shows a link destination URL notified before communication when an Internet 'Explorer (R) used in the link information detection unit 26 of FIG. 1 starts communication access to an arbitrary web page. It is explanatory drawing of the before-navigation 62 which is event information including.
[0071] 即ち、インターネットエクスプローラ(R)の場合、ある URLを指定してウェブページ を閲覧する場合、ウェブサイトに通信を開始する前に通知されるイベントとしてビフォ ヮナビゲート (BeforeNavigate)が知られて!/、る。 That is, in the case of Internet Explorer (R), a web page is specified by specifying a certain URL. When browsing, BeforeNavigate is known as an event to be notified before starting communication to the website!
[0072] このビフォヮナビゲート 62にあっては、図 13に示すように 3行目の引き数「url」にリ ンク先の URLが設定されている。本発明のリンク情報検出部 26にあっては、このビフ ォヮナビゲート 62のイベント情報の中の引き数「url」からリンク先の URLを検出する。  In this before-navigation 62, as shown in FIG. 13, the link destination URL is set in the argument “url” on the third line. In the link information detection unit 26 of the present invention, the URL of the link destination is detected from the argument “url” in the event information of the before navigation 62.
[0073] またビフォヮナビゲート 62が通知された後そのままにしておくとリンクページへの遷 移が行われることから、既にリンク先の URLの検出が済んでいることから、図 13のビ フォヮナビゲート 62の 8行目に示す最終パラメータである「Cancel」に「True」を設定 することで通信をキャンセルする。これにより、ページ遷移をすることなくリンク先の U RLだけを検出して取得することができる。  [0073] Furthermore, since the transition to the link page will be performed if it is left as it is after being notified of before-navigation 62, the URL of the link destination has already been detected. Communication is canceled by setting “True” to “Cancel” which is the final parameter shown in the 8th line of 62. As a result, it is possible to detect and acquire only the link destination URL without page transition.
[0074] 図 14は図 1のリンク一覧テーブル 30の説明図であり、リンク情報検出部 26で検出 されたリンク先の URLが格納されて!、る。  FIG. 14 is an explanatory diagram of the link list table 30 of FIG. 1, in which URLs of link destinations detected by the link information detection unit 26 are stored!
[0075] ここで本発明におけるリンク情報の収集は、ある URLを使用してウェブページをブ ラウザ 20により展開し、ページ解析部 22、イベント発生部 24、リンク情報検出部 26に より、ウェブページに配置されている利用者の操作を必要とする全てのフォーム部品 について、イベント発生により擬似的な操作を行ってウェブページへの遷移を発生さ せてリンク先の URLを取得したならば、その後にリンク一覧テーブルを参照して、新 たに取得したリンク先のウェブページを展開し、ウェブページに配置されている利用 者の操作を必要とするフォーム部品に対するイベント発生によるリンク先の URLの取 得を繰り返す。  [0075] Here, the collection of link information in the present invention is performed by developing a web page by the browser 20 using a certain URL, and the web page by the page analysis unit 22, the event generation unit 24, and the link information detection unit 26. For all form parts that require user operation placed in, if a simulated operation is performed due to an event and a transition to a web page is generated to obtain the link destination URL, then Referring to the link list table, expand the newly acquired link destination web page, and acquire the link destination URL when an event occurs for a form part that requires user operation on the web page. Repeat the acquisition.
[0076] 即ち本発明にあっては、現在展開中のゥヱブページに存在するフォーム部品に対 するイベント発生によるページ遷移からリンク先 URLを検出した場合、新たに検出し たリンク先 URLのウェブページを開いて、そのページのフォーム部品のイベント発生 による次のリンク先の URLの取得といった階層方向へのリンク情報の収集は行わず 、ウェブページ単位で 1つ先のリンク先の URLの収集を繰り返す。もし階層方向への リンク情報の収集を行ったとすると、最後のウェブページに達した後、元の階層へ戻 らなければならず、処理が煩雑になる。  That is, in the present invention, when a link destination URL is detected from a page transition caused by an event occurrence for a form part existing in a currently deployed web page, a web page of the newly detected link destination URL is displayed. Open and do not collect link information in the hierarchical direction such as acquisition of the URL of the next link destination when an event of the form part of the page occurs, but repeat the collection of the URL of the next link destination in the Web page unit. If link information is collected in the hierarchy direction, after reaching the last web page, it must return to the original hierarchy, and the processing becomes complicated.
[0077] 図 15は本発明によるインターネット情報収集処理のフローチャートである。図 15に お!、て、ステップ SIで従来のウェブロボットなどで収集された URLの一覧を取得した 後、ステップ S2でその中から 1つの URLを選択し、ステップ S3でブラウザ 20を起動 してウェブページをオープンする。 FIG. 15 is a flowchart of Internet information collection processing according to the present invention. Figure 15 Oh! After acquiring a list of URLs collected by conventional web robots in step SI, select one URL from step S2 and launch browser 20 to open a web page in step S3. .
[0078] このウェブページのブラウザによるオープンは、実際の画面展開は行う必要がなぐ インターネット情報収集装置 10としてのコンピュータの作業におけるバックグラウンド 処理として行われている。 The opening of this web page by the browser is performed as a background process in the operation of the computer as the Internet information collecting apparatus 10 without actually developing the screen.
[0079] 次に、ステップ S4でページを DOMバーサなどにより解析して、イベント発生部 24 でイベント発生ができる APIを構築した DOMツリーを持つドキュメント 'オブジェクト' モデル DOMを構築した後、ステップ S 5でイベント発生による擬似操作でリンク情報 検出処理を実行する。 [0079] Next, in step S4, the page is analyzed with a DOM parser, etc., and an API that can generate an event in the event generator 24 is constructed. After constructing the document 'object' model DOM, step S 5 The link information detection process is executed by a pseudo operation when an event occurs.
[0080] 続いてステップ S6で、ステップ S1で読み込んだ URL—覧につき、未処理の URL があるか否かチェックし、未処理の URLがあればステップ S2に戻って同様な処理を 繰り返す。ステップ S6で全ての URLについての処理が終了すると、ステップ S7に進 み、新たに検出したリンク先の URLの一覧を取得し、ステップ S8で未処理の URLが なくなるまで、ステップ S2からのリンク情報検出のための処理を繰り返す。  [0080] Subsequently, in step S6, it is checked whether or not there is an unprocessed URL for the URL read in step S1, and if there is an unprocessed URL, the process returns to step S2 and the same processing is repeated. When processing for all URLs is completed in step S6, the process proceeds to step S7 to obtain a list of newly detected link destination URLs and link information from step S2 until there are no unprocessed URLs in step S8. Repeat the process for detection.
[0081] 図 16,図 17は、図 15のステップ S5に対応した本発明によるリンク情報検出処理の フローチャートである。  FIGS. 16 and 17 are flowcharts of the link information detection processing according to the present invention corresponding to step S5 of FIG.
[0082] 図 16において、リンク情報検出処理は、ステップ S1で HTMLタグ文におけるタグ を操作し、ステップ S 2で非イベント発生タグ力否かチェックする。非イベント発生タグ としては、図 4の 11行目に示した <A>タグ、く IMG>タグ、く LINK>タグなどが ある。非イベント発生タグであった場合にはステップ S3に進み、リンク先 URLを直接 検出して保存する。  In FIG. 16, in the link information detection process, the tag in the HTML tag sentence is manipulated in step S1, and whether or not the non-event occurrence tag power is checked in step S2. Non-event occurrence tags include <A> tag, <IMG> tag, <LINK> tag, etc., shown on line 11 in Fig.4. If it is a non-event occurrence tag, proceed to step S3 to directly detect and save the link destination URL.
[0083] 一方、ステップ S2で非イベント発生タグでな力つた場合には、ステップ S4に進み、 < FORM >タグか否か判別する。 < FORM >タグであった場合にはステップ S 5に 進み、フォーム部品は操作ボタンか否かチェックする。  On the other hand, if it is determined in step S2 that a non-event occurrence tag has been used, the process proceeds to step S4, and it is determined whether or not it is a <FORM> tag. If it is a <FORM> tag, proceed to step S5 and check whether the form part is an operation button.
[0084] 操作ボタンであった場合にはステップ S6に進み、く INPUT >タグか否かチェック し、く INPUT>タグであった場合には、ステップ S7で予め準備されている発生ィべ ント一覧の中から順番にイベントを 1つ選択して発行することで、対応するスクリプト文 の実行により、リンク先の URLを生成してページ遷移させる。 [0084] If it is an operation button, the process proceeds to step S6, where it is checked whether or not <INPUT> tag, and if it is <INPUT> tag, a list of generated events prepared in advance in step S7. By selecting and issuing one event in order from the corresponding script statement By executing, link destination URL is generated and page transition is made.
[0085] 続いてステップ S8でページ遷移の有無をチェックしており、ページ遷移があれば、 ステップ S9でリンク先 URLを取得して保存する。なおステップ S8のページ遷移は、 図 13に示したように、インターネットエクスプローラ (R)の場合、通信前に取得される イベント情報であるビフォヮナビゲート 62の取得の有無であり、これが取得された場 合には、その中からリンク先 URLを検出して保存することになる。  Subsequently, whether or not there is a page transition is checked in step S8. If there is a page transition, the link destination URL is acquired and stored in step S9. Note that the page transition in step S8 is the presence / absence of acquisition of before-navigation 62, which is event information acquired before communication in the case of Internet Explorer (R), as shown in FIG. In this case, the link destination URL is detected and saved.
[0086] ステップ S 10で全てのイベント発生が終了するまで、ステップ S7からの処理を繰り 返す。この全てのイベント発生については、実際に HTML文のく INPUT >タグに 定義されて 、るイベントのみが有効イベントとして機能し、スクリプト文の実行によりリ ンク先 URLを発生させることになる。  [0086] The processing from step S7 is repeated until all event generations are completed in step S10. For all these events, only the event that is defined in the INPUT> tag in the HTML statement functions as a valid event, and the link destination URL is generated by executing the script statement.
[0087] 次に図 17のステップ 11に進み、フォーム部品は選択リストか否かチェックする。選 択リストであった場合にはステップ S 12に進み、く FORM >タグの範囲内にある全て の子供タグく INPUT> < SELECT >などを操作する。  Next, proceeding to step 11 in FIG. 17, it is checked whether or not the form part is a selection list. If it is a selection list, proceed to step S12 and operate all child tags within the range of <FORM> tags such as INPUT> <SELECT>.
[0088] 続、てステップ S 13でく INPUT >タグの兄弟となるく SELECT >タグの選択パタ ーンを解析する。図 10〜図 12の場合、この選択パターンは 3種類となっている。次に 、ステップ S14で兄弟タグく SELECT>の状態を選択パターンにより変更する。  [0088] Next, in step S13, INPUT> tag sibling SELECT> tag selection pattern is analyzed. In the case of Fig. 10 to Fig. 12, there are three types of this selection pattern. Next, in step S14, the state of sibling tag SELECT> is changed according to the selection pattern.
[0089] 続いて、ステップ S15で現在の子供タグく INPUT>に対しイベントを 1つ選択して 発行し、ステップ S 16でページ遷移発生の有無をチェックする。ページ遷移があれば 、ステップ S 17でリンク先 URLを検出して保存する。続いて、ステップ S18で全てのィ ベント発生終了力否かチェックし、全てのイベント発生が終了するまで、ステップ S 15 からの処理を繰り返す。  [0089] Subsequently, in step S15, one event is selected and issued for the current child tag INPUT>, and in step S16, whether or not a page transition has occurred is checked. If there is a page transition, the link destination URL is detected and stored in step S17. Subsequently, in step S18, it is checked whether or not all event occurrence end powers are satisfied, and the processing from step S15 is repeated until all event generation ends.
[0090] 次にステップ S 19で全ての選択パターンの終了の有無をチェックし、選択パターン が終了していなければ、ステップ S14に戻り、兄弟タグく SELECT>の状態を次の 選択パターンに変更し、ステップ S14〜S18の処理を繰り返す。  [0090] Next, in step S19, it is checked whether or not all selection patterns have been completed. If the selection pattern has not been completed, the process returns to step S14 and the state of sibling tag SELECT> is changed to the next selection pattern. , Steps S14 to S18 are repeated.
[0091] ステップ S19で全ての選択パターンについて処理が終了すると、ステップ S20に進 み、全タグについて処理終了の有無をチェックし、終了していなければ図 16のステツ プ S1に戻って、タグを操作して次のタグについて処理を行い、以下、全てのタグにつ いて処理が終了するまで、ステップ S1〜S20の処理を繰り返す。 [0092] また本発明は、コンピュータで構成されるインターネット情報収集装置 10で実行さ れるインターネット情報収集プログラムを提供するものであり、このプログラムは図 15 〜図 16及び図 17のフローチャートに従った処理手順を備えたプログラムとして構築 される。 [0091] When processing for all the selected patterns is completed in step S19, the process proceeds to step S20, where it is checked whether processing has been completed for all tags. If not, the process returns to step S1 in FIG. The process is performed for the next tag, and thereafter, the processing of steps S1 to S20 is repeated until the processing is completed for all the tags. The present invention also provides an Internet information collection program that is executed by the Internet information collection device 10 constituted by a computer. This program is a process according to the flowcharts of FIGS. 15 to 16 and FIG. It is constructed as a program with procedures.
[0093] 図 18は本発明によるインターネット情報収集装置の他の実施形態のブロック図であ る。この実施形態にあっては、アプリケーション実行環境 18に設けたリンク情報検出 部 26の機能として、図 1の実施形態におけるイベント発生部 24による発生イベントで 生成されたリンク情報によるページ遷移力 ウェブ情報を検出して保存する機能にカロ え、更にページ閲覧部として機能するブラウザ 20がアクセスしたプロキシサーバ 64か らリンク先のウェブ情報を検出して保存するようにしたことを特徴とする。  FIG. 18 is a block diagram of another embodiment of the Internet information collecting apparatus according to the present invention. In this embodiment, as a function of the link information detection unit 26 provided in the application execution environment 18, the page transition force web information based on the link information generated by the event generated by the event generation unit 24 in the embodiment of FIG. In addition to the function of detecting and saving, the web information of the link destination is detected and stored from the proxy server 64 accessed by the browser 20 functioning as the page browsing unit.
[0094] これは図 1のインターネット情報収集装置 10の機能では抽出不可能な URLが存在 してしまう問題を解消するものである。  This solves the problem that there is a URL that cannot be extracted by the function of the Internet information collecting apparatus 10 of FIG.
[0095] ここで図 1の実施形態で抽出不可能な URLとしては次のものが存在する。  Here, the following URLs cannot be extracted in the embodiment of FIG.
(1)利用者の操作で静的なリンクを更新するような場合。  (1) When static links are updated by user operations.
(2)ジャバァプレット (Java Applet)などでジャバプログラムによって独自に HTTP 通信をする場合。  (2) When performing HTTP communication independently with Java programs such as Java Applet.
(3)アクティブ 'エックス'コンポーネント(Active X Component)など独自のプロ グラムが独自に HTTP通信をする場合。  (3) When an original program such as Active 'X' component (HTTP) communicates independently.
(4)ユニックス (Unix (R) )環境などでソフトウェア ·ディプロップメント ·キット(SDK)に 図 13に示したようなビフォヮナビゲート機能が存在しないようなプラットホームなどで 動作させる場合。  (4) When operating on a platform that does not have the before-navigation function as shown in Fig. 13 in the software development kit (SDK) in the Unix (R) environment.
[0096] 図 19は前記(1)で利用者が静的なリンクを更新する図 1の実施形態では抽出でき ない URLの説明図である。図 19において、 HTMLソース文 65は 3〜5行目にスクリ プト分 66と 6〜8行目にスプリタト文 67を記述して!/、る。  FIG. 19 is an explanatory diagram of URLs that cannot be extracted in the embodiment of FIG. 1 in which the user updates a static link in (1). In Figure 19, HTML source sentence 65 describes script part 66 on lines 3-5 and script sentence 67 on lines 6-8!
[0097] スプリタト文 66はマウス操作などによりカーソルがイメージ上を通過したときに画像 ファイルを「over. gif」に変更する動作を行う。このスプリタト文 68の「over. gif」は利 用者のマウス操作によって始めてウェブサイトから取得されることになる力 ページ遷 移動作ではな!/、ためビフォヮナビゲードイベントによっては発生することはな 、。この ため図 1の実施形態ではファイル名 rover. gif」をフルパスにもつウェブサイトの URL を検出することはできない。 The split sentence 66 performs an operation of changing the image file to “over.gif” when the cursor passes over the image by a mouse operation or the like. This split sentence 68 “over.gif” is a force that will be acquired from the website for the first time by the user's mouse operation. Nah ... this Therefore, in the embodiment of FIG. 1, it is impossible to detect the URL of a website having the file name “rover.gif” in the full path.
[0098] 次のスプリタト文 67はカーソルがイメージ上か離れたときに画像ファイルを「out. gif 」に戻す動作を行う。この「out. gif」についても利用者のマウス操作によってはじめて ウェブサイトから取得され、ページ遷移動作でないため図 1の実施形態におけるビフ ォヮナビゲートイベントは発生しないこととなり、 URLを取得することができない。  The next split sentence 67 performs the operation of returning the image file to “out.gif” when the cursor moves over or away from the image. This “out.gif” is also acquired from the website for the first time by the user's mouse operation and is not a page transition operation. Therefore, the before-navigation event in the embodiment of FIG. 1 does not occur, and the URL can be acquired. Can not.
[0099] そこで本発明にあっては、図 18のように、インターネット情報収集装置 10がブラウ ザ 20を利用する場合、必ずプロキシサーバ 64を介してウェブサイト 14— 1〜 14— 3 側にアクセスしており、この場合、プロキシサーバ 64内ではウェブサイトにおける HT TP要求とウェブサイトからの HTTP応答に伴ってファイル上にアクセス情報が保存さ れるに着目して問題の解決を図る。  Therefore, in the present invention, as shown in FIG. 18, when the Internet information collecting apparatus 10 uses the browser 20, the website 14-1 to 14-3 side is always accessed via the proxy server 64. In this case, in the proxy server 64, the problem is solved by focusing on the fact that the access information is stored on the file along with the HTTP response from the website and the HTTP response from the website.
[0100] 即ち、本発明にあってはリンク情報検出部 26においてビフォヮナビゲート機能によ るページ遷移の発生力 リンク先の URLを検出して保存する処理をすベて終了した 後、プロキシサーノ 64にアクセスして、そこに保存しているファイル情報力 遷移先 の URLをフルパスで取得してリンク一覧テーブル 30に保存する。  [0100] That is, in the present invention, the link information detection unit 26 generates the power of page transition by the before-navigation function. Access Sano 64, and obtain the URL of the file information power transition destination stored there with the full path and save it in the link list table 30.
[0101] 図 20はプロキシサーバのファイル力 URLを検出して収集する図 18の実施形態 の処理動作の説明図である。図 20において、インターネット情報収集装置 10で例え ば図 19で示したスプリタト文 68に基づく画像上のカーソル移動でフアイャイベント 68 が発生すると、ブラウザ 20からプロキシサーバ 64を介してウェブサイト 14に HTTP要 求 72が送信される。  FIG. 20 is an explanatory diagram of the processing operation of the embodiment of FIG. 18 for detecting and collecting the file power URL of the proxy server. In FIG. 20, when a fire event 68 occurs when the cursor is moved on the image based on the split sentence 68 shown in FIG. 19 by the Internet information collecting device 10, for example, an HTTP is sent from the browser 20 to the website 14 via the proxy server 64. Request 72 is sent.
[0102] この HTTP要求 72を受けたウェブサイト 14にあっては、ファイル名「over. gifjのゥ エブページ 74を HTTP応答 78としてプロキシサーノ 64を介してブラウザ 20に応答 する。  The website 14 that has received this HTTP request 72 responds to the browser 20 through the proxy server 64 with the web page 74 of the file name “over.gifj” as the HTTP response 78.
[0103] ここでプロキシサーノ 64にあっては HTTP要求 72をウェブサイト 14に送る際にファ ィル 85にアクセス情報 76を保存しており、またウェブサイト 14力も HTTP応答 78を ブラウザ 20に送る際にアクセス情報 80をファイル 85に保存している。  [0103] In Proxysano 64, when sending HTTP request 72 to website 14, access information 76 is stored in file 85, and website 14 also sends HTTP response 78 to browser 20. In this case, the access information 80 is stored in the file 85.
[0104] HTTP要求 72に伴って保存されたアクセス情報 76の 1行目にはファイル名として「 over. gif」が格納され、また 3行目にはウェブサイト 14のドメイン名「domain」が格納 されている。 [0104] The first line of the access information 76 saved with the HTTP request 72 stores "over.gif" as the file name, and the third line stores the domain name "domain" of the website 14. Has been.
[0105] 従って図 18に示したインターネット情報収集装置 10に設けているリンク情報検出部 20は、プロキシサーバ 64のファイル 85を参照し、「HTTP: ZZ」から始まってフアイ ル名 rover. gif」までを示すフルパスのリンク先の URL84として「http : ZZdomain /over. gif」を検出し、リンク一覧テーブル 30のレコード 82に示すように保存する。  Accordingly, the link information detecting unit 20 provided in the Internet information collecting apparatus 10 shown in FIG. 18 refers to the file 85 of the proxy server 64, and starts with “HTTP: ZZ” and starts with the file name rover.gif. “Http: ZZdomain / over.gif” is detected as the URL 84 of the link destination of the full path showing up to and saved as shown in the record 82 of the link list table 30.
[0106] 図 21は図 18の実施形態におけるインターネット情報収集装置のフローチャートで ある。図 21においてステップ S1〜S8の処理は図 15に示した図 1の実施形態による 処理と同じである。図 18の実施形態にあってはステップ S1〜S8の処理が終了した 後、ステップ S9でプロキシサーノ 64からフルパスの URLを取得してリンク一覧テー ブルに登録する処理を実行するようにして 、る。  FIG. 21 is a flowchart of the Internet information collecting apparatus in the embodiment of FIG. In FIG. 21, the processing of steps S1 to S8 is the same as the processing according to the embodiment of FIG. 1 shown in FIG. In the embodiment of FIG. 18, after the processing of steps S1 to S8 is completed, the processing of acquiring the full path URL from the proxy sano 64 and registering it in the link list table is executed in step S9. .
[0107] このように一時的な操作では発生できな 、例えばマウスなどで発生するイベントに つき、ブラウザがアクセスするプロキシサーノ からリンク情報として URLを取得するこ とでインターネット情報を収集するために展開されたウェブページ上力 もれなくイン ターネット上のウェブ情報を収集することができる。  [0107] Deployed to collect Internet information by acquiring URLs as link information from the proxy server that the browser accesses, for example, events that occur with a mouse or the like that cannot be generated by temporary operations. It is possible to collect web information on the Internet without any effort on the web page.
[0108] なお、本発明は、その目的と利点を損なうことのない適宜の変形を含み、更に上記 の実施形態に示した数値による限定は受けない。  Note that the present invention includes appropriate modifications that do not impair the object and advantages thereof, and is not limited by the numerical values shown in the above embodiments.

Claims

請求の範囲 The scope of the claims
[1] インターネット上のウェブページを取得して画面展開するページ閲覧部と、  [1] A page browsing part that acquires web pages on the Internet and expands the screen,
前記ページ閲覧部で画面展開されたウェブページを解析し、利用者の操作により 発生するイベントに応じて動的にリンク情報を生成するイベント操作タグ文を抽出す るページ解析部と、  A page analysis unit that analyzes a web page displayed on the page browsing unit and extracts an event operation tag sentence that dynamically generates link information according to an event generated by a user operation;
前記ページ解析部で抽出されたイベント操作タグ文に対し前記イベントを発生させ るイベント発生部と、  An event generation unit that generates the event in response to the event operation tag sentence extracted by the page analysis unit;
前記イベント発生部による発生イベントで生成されたリンク情報によるページ遷移か らリンク先のウェブ情報を検出して保存するリンク情報検出部と、  A link information detection unit that detects and stores link destination web information from page transitions by link information generated by an event generated by the event generation unit;
を備えたことを特徴とするインターネット情報収集装置。  An Internet information collecting apparatus comprising:
[2] 請求項 1記載のインターネット情報収集装置に於いて、前記リンク情報検出部は、 更に、前記ページ閲覧部がアクセスしたプロキシサーノくからリンク先のウェブ情報を 検出して保存することを特徴とするインターネット情報収集装置。 [2] The Internet information collection device according to claim 1, wherein the link information detection unit further detects and stores link destination web information from the proxy server accessed by the page browsing unit. Internet information collection device.
[3] 請求項 1記載のインターネット情報収集装置に於いて、 [3] In the Internet information collecting device according to claim 1,
前記ページ解析部は、前記ウェブページを構築するタグ文の中のフォーム文で規 定された範囲からインプット文を抽出し、  The page analysis unit extracts an input sentence from a range defined by a form sentence in a tag sentence that constructs the web page,
前記イベント発生部は、前記インプット文につき定義されている全てのイベントを順 次発生し、その中の有効イベントによりリンク情報を生成させることを特徴とするインタ 一ネット情報収集装置。  The Internet information collection device, wherein the event generation unit sequentially generates all events defined for the input sentence, and generates link information according to valid events therein.
[4] 請求項 1記載のインターネット情報収集装置に於いて、 [4] In the Internet information collecting device according to claim 1,
前記ページ解析部は、前記ウェブページを構築するタグ文の中のフォーム文で規 定された範囲から利用者に選択肢を示すセレクト文と利用者操作を必要とするインプ ット文を抽出し、  The page analysis unit extracts a select sentence indicating an option to the user and an input sentence that requires a user operation from a range specified by the form sentence in the tag sentence constructing the web page,
前記イベント発生部は、前記セレクト文の選択肢を変更しながら前記インプット文に 対しイベントを発生することを特徴とするインターネット情報収集装置。 請求項 4記載のインターネット情報収集装置に於 、て、 The Internet information collection device, wherein the event generation unit generates an event for the input sentence while changing options of the selection sentence. In the Internet information collecting device according to claim 4,
前記ページ解析部は、前記ウェブページを構築するタグ文の中のフォームタグで 規定された範囲力も前記フォームタグの子供タグとなるインプットタグ、前記インプット タグの兄弟タグとなる選択リストを作成するセレクトタグ、前記セレクトタグの子供タグと なる選択リストの内容を示す複数のオプションタグを抽出し、  The page analysis unit selects an input tag that is a child tag of the form tag and a selection list that is a sibling tag of the input tag as well as a range power defined by the form tag in the tag sentence that constructs the web page. A plurality of option tags indicating the contents of a selection list that is a tag and a child tag of the select tag;
前記イベント発生部は、前記セレクトタグ内の複数のオプションタグを変更しながら 前記インプットタグのイベントを発生することを特徴とするインターネット情報収集装置  The Internet information collection device, wherein the event generation unit generates an event of the input tag while changing a plurality of option tags in the select tag
[6] 請求項 5記載のインターネット情報収集装置に於いて、前記イベント発生部は、前 記インプットタグにつき定義されている全てのイベントを順次発生し、その中の有効ィ ベントによりリンク情報を生成させることを特徴とするインターネット情報収集装置。 [6] In the Internet information collection device according to claim 5, the event generation unit sequentially generates all the events defined for the input tag, and generates link information based on the valid events therein. An Internet information collecting apparatus characterized by causing the information to be collected.
[7] 請求項 1記載のインターネット情報収集装置に於いて、前記リンク情報検出部は、 現在展開中のウェブページのイベント操作タグ文に対するイベント発生でページ遷 移するウェブページのリンク情報を全て検出して保存した後に、他のウェブページを 画面展開してイベント操作タグ文に対するイベント発生でページ遷移するウェブべ一 ジのリンク情報を取得して保存する処理を繰り返すことを特徴とするインターネット情 報収集装置。 [7] The Internet information collection device according to claim 1, wherein the link information detection unit detects all link information of a web page that changes a page when an event occurs for an event operation tag statement of a currently deployed web page. Internet information characterized by repeating the process of acquiring and saving the link information of the web page that changes the page when an event occurs in response to the event operation tag sentence after the other web page is expanded. Collection device.
[8] 請求項 1記載のインターネット情報収集装置に於いて、前記リンク情報検出部は、リ ンク先への通信前に通知される通信イベント情報力 ページ遷移せずに遷移するゥ エブページのリンク情報を検出することを特徴とするインターネット情報収集装置。 [8] The Internet information collection device according to claim 1, wherein the link information detection unit is a communication event information force notified before communication to the link destination. An Internet information collecting device characterized by detecting
[9] コンピュータに、 [9] On the computer,
インターネット上のウェブページを取得して画面展開するページ閲覧ステップと、 前記ページ閲覧ステップで画面展開されたウェブページを解析し、利用者の操作 により発生するイベントに応じて動的にリンク情報を生成するイベント操作タグ文を抽 出するページ解析ステップと、 A page browsing step for acquiring a web page on the Internet and expanding the screen; analyzing the web page expanded in the page browsing step; A page analysis step for extracting event operation tag statements that dynamically generate link information according to events generated by
前記ページ解析ステップで抽出されたイベント操作タグ文に対し前記イベントを発 生させるイベント発生ステップと、  An event generation step for generating the event with respect to the event operation tag sentence extracted in the page analysis step;
前記イベント発生ステップによる発生イベントで生成されたリンク情報によるページ 遷移からリンク先のウェブ情報を検出して保存するリンク情報検出ステップと、 を実行させることを特徴とするインターネット情報収集プログラム。  A link information detection step of detecting and storing link destination web information from page transitions based on link information generated by an event generated by the event generation step, and executing the following.
[10] 請求項 9記載のインターネット情報収集プログラムに於いて、前記リンク情報検出ス テツプは、更に、前記ページ閲覧ステップでアクセスしたプロキシサーノ からリンク先 のウェブ情報を検出して保存することを特徴とするインターネット情報収集装置。 [10] The Internet information collection program according to claim 9, wherein the link information detection step further detects and stores link destination web information from the proxy server accessed in the page browsing step. Internet information collection device.
[11] 請求項 9記載のインターネット情報収集プログラムに於いて、 [11] In the Internet information collecting program according to claim 9,
前記ページ解析ステップは、前記ウェブページを構築するタグ文の中のフォーム文 で規定された範囲からインプット文を抽出し、  The page analysis step extracts an input sentence from a range defined by a form sentence in a tag sentence that constructs the web page,
前記イベント発生ステップは、前記インプット文につき定義されている全てのィベン トを順次発生し、その中の有効イベントによりリンク情報を生成させることを特徴とする インターネット情報収集プログラム。  The event generation step sequentially generates all events defined for the input sentence, and generates link information according to valid events therein.
[12] 請求項 9記載のインターネット情報収集プログラムに於 、て、 [12] In the Internet information collecting program according to claim 9,
前記ページ解析ステップは、前記ウェブページを構築するタグ文の中のフォーム文 で規定された範囲から利用者に選択肢を示すセレクト文と利用者操作を必要とする インプット文を抽出し、  The page analysis step extracts a select sentence indicating an option to the user and an input sentence that requires a user operation from a range defined by the form sentence in the tag sentence that constructs the web page,
前記イベント発生ステップは、前記セレクト文の選択肢を変更しながら前記インプッ ト文に対しイベントを発生することを特徴とするインターネット情報収集プログラム。  The Internet event collection program characterized in that the event generation step generates an event for the input sentence while changing options of the selection sentence.
[13] 請求項 12記載のインターネット情報収集プログラムに於いて、 [13] In the Internet information collecting program according to claim 12,
前記ページ解析ステップは、前記ウェブページを構築するタグ文の中のフォームタ グで規定された範囲力も前記フォームタグの子供タグとなるインプットタグ、前記イン プットタグの兄弟タグとなる選択リストを作成するセレクトタグ、前記セレクトタグの子供 タグとなる選択リストの内容を示す複数のオプションタグを抽出し、 The page analysis step includes a form tag in a tag sentence for constructing the web page. The range power specified in the group also includes an input tag that is a child tag of the form tag, a selection tag that creates a selection list that is a sibling tag of the input tag, and a plurality of selection lists that indicate the contents of the selection list that is a child tag of the selection tag. Extract option tags,
前記イベント発生ステップは、前記セレクトタグ内の複数のオプションタグを変更し ながら前記インプットタグのイベントを発生することを特徴とするインターネット情報収 集プログラム。  The event generation step generates an event of the input tag while changing a plurality of option tags in the select tag.
[14] 請求項 13記載のインターネット情報収集プログラムに於いて、前記イベント発生ス テツプは、前記インプットタグにつき定義されている全てのイベントを順次発生し、そ の中の有効イベントによりリンク情報を生成させることを特徴とするインターネット情報 収集プログラム。 [14] The Internet information collection program according to claim 13, wherein the event generation step sequentially generates all events defined for the input tag, and generates link information based on the valid events therein. Internet information collection program characterized by
[15] 請求項 9記載のインターネット情報収集プログラムに於いて、前記リンク情報検出ス テツプは、現在展開中のウェブページのイベント操作タグ文に対するイベント発生で ページ遷移するウェブページのリンク情報を全て検出して保存した後に、他のウェブ ページを画面展開してイベント操作タグ文に対するイベント発生でページ遷移するゥ エブページのリンク情報を取得して保存する処理を繰り返すことを特徴とするインター ネット情報収集プログラム。 [15] The Internet information collection program according to claim 9, wherein the link information detection step detects all link information of a web page that transitions when an event occurs in response to an event operation tag statement of a currently deployed web page. Internet information collection program characterized by repeating the process of acquiring and saving the link information of a web page that transitions when an event occurs in response to an event operation tag statement. .
[16] 請求項 9記載のインターネット情報収集プログラムに於いて、前記リンク情報検出ス テツプは、リンク先への通信前に通知される通信イベント情報からページ遷移せずに 遷移するウェブページのリンク情報を検出することを特徴とするインターネット情報収 集プログラム。 [16] The Internet information collection program according to claim 9, wherein the link information detection step includes link information of a web page that does not transition from a communication event information notified before communication to a link destination. Internet information collection program characterized by detecting
[17] インターネット上のウェブページを取得して画面展開するページ閲覧ステップと、 前記ページ閲覧ステップで画面展開されたウェブページを解析し、利用者の操作 により発生するイベントに応じて動的にリンク情報を生成するイベント操作タグ文を抽 出するページ解析ステップと、 前記ページ解析ステップで抽出されたイベント操作タグ文に対し前記イベントを発 生させるイベント発生ステップと、 [17] A page browsing step for acquiring web pages on the Internet and expanding the screen, analyzing the web pages expanded in the page browsing step, and dynamically linking them according to events generated by user operations A page analysis step for extracting event operation tag statements for generating information; An event generation step for generating the event with respect to the event operation tag sentence extracted in the page analysis step;
前記イベント発生ステップによる発生イベントで生成されたリンク情報によるページ 遷移からリンク先のウェブ情報を検出して保存するリンク情報検出ステップと、 を備えたことを特徴とするインターネット情報収集方法。  An internet information collecting method comprising: a link information detecting step of detecting and storing link destination web information from page transitions based on link information generated by an event generated by the event generating step.
[18] 請求項 17記載のインターネット情報収集方法に於いて、前記リンク情報検出部は、 更に、前記ページ閲覧部がアクセスしたプロキシサーノくからリンク先のウェブ情報を 検出して保存することを特徴とするインターネット情報収集方法。 18. The Internet information collecting method according to claim 17, wherein the link information detection unit further detects and stores link destination web information from the proxy server accessed by the page browsing unit. Internet information collection method.
[19] 請求項 17記載のインターネット情報収集方法に於いて、 [19] The Internet information collecting method according to claim 17,
前記ページ解析ステップは、前記ウェブページを構築するタグ文の中のフォーム文 で規定された範囲からインプット文を抽出し、  The page analysis step extracts an input sentence from a range defined by a form sentence in a tag sentence that constructs the web page,
前記イベント発生ステップは、前記インプット文につき定義されている全てのィベン トを順次発生し、その中の有効イベントによりリンク情報を生成させることを特徴とする インターネット情報収集方法。  The Internet event collection method, wherein the event generation step sequentially generates all events defined for the input sentence and generates link information according to valid events therein.
[20] 請求項 17記載のインターネット情報収集方法に於 、て、 [20] In the Internet information collecting method according to claim 17,
前記ページ解析ステップは、前記ウェブページを構築するタグ文の中のフォーム文 で規定された範囲から利用者に選択肢を示すセレクト文と利用者操作を必要とする インプット文を抽出し、  The page analysis step extracts a select sentence indicating an option to the user and an input sentence that requires a user operation from a range defined by the form sentence in the tag sentence that constructs the web page,
前記イベント発生ステップは、前記セレクト文の選択肢を変更しながら前記インプッ ト文に対しイベントを発生することを特徴とするインターネット情報収集方法。  The Internet event collection method, wherein the event generation step generates an event for the input sentence while changing options of the selection sentence.
[21] 請求項 20記載のインターネット情報収集方法に於 、て、 [21] In the Internet information collecting method according to claim 20,
前記ページ解析ステップは、前記ウェブページを構築するタグ文の中のフォームタ グで規定された範囲力も前記フォームタグの子供タグとなるインプットタグ、前記イン プットタグの兄弟タグとなる選択リストを作成するセレクトタグ、前記セレクトタグの子供 タグとなる選択リストの内容を示す複数のオプションタグを抽出し、 In the page analysis step, an input tag that is a child tag of the form tag and a selection list that is a sibling tag of the input tag are created by the range power specified by the form tag in the tag sentence that constructs the web page. Select tag, children of the select tag Extract multiple option tags that indicate the contents of the selection list to be a tag,
前記イベント発生ステップは、前記セレクトタグ内の複数のオプションタグを変更し ながら前記インプットタグのイベントを発生することを特徴とするインターネット情報収 集方法。  The event generation step generates the event of the input tag while changing a plurality of option tags in the select tag.
[22] 請求項 21記載のインターネット情報収集方法に於いて、前記イベント発生ステップ は、前記インプットタグにつき定義されている全てのイベントを順次発生し、その中の 有効イベントによりリンク情報を生成させることを特徴とするインターネット情報収集方 法。 [22] The Internet information collecting method according to claim 21, wherein the event generation step sequentially generates all events defined for the input tag, and generates link information based on the valid events therein. Internet information collection method characterized by
[23] 請求項 17記載のインターネット情報収集方法に於いて、前記リンク情報検出ステツ プは、現在展開中のウェブページのイベント操作タグ文に対するイベント発生でぺー ジ遷移するウェブページのリンク情報を全て検出して保存した後に、他のウェブべ一 ジを画面展開してイベント操作タグ文に対するイベント発生でページ遷移するウェブ ページのリンク情報を取得して保存する処理を繰り返すことを特徴とするインターネッ ト情報収集方法。 [23] In the Internet information collecting method according to claim 17, the link information detecting step includes all link information of a web page that changes a page when an event occurs with respect to an event operation tag statement of a currently deployed web page. After detecting and saving, the Internet is characterized by repeating the process of acquiring and saving the link information of the web page that expands the screen of another web page and the page transitions when an event occurs for the event operation tag sentence. Information collection method.
[24] 請求項 17記載のインターネット情報収集方法に於いて、前記リンク情報検出ステツ プは、リンク先への通信前に通知される通信イベント情報力 ページ遷移せずに遷 移するウェブページのリンク情報を検出することを特徴とするインターネット情報収集 方法。 [24] The Internet information collecting method according to claim 17, wherein the link information detection step includes a communication event information page notified before communication to the link destination, and a link of a web page that transitions without page transition. A method for collecting Internet information, characterized by detecting information.
PCT/JP2005/006919 2004-10-28 2005-04-08 Internet information collection device, program, and method WO2006046323A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006542237A JP4507206B2 (en) 2004-10-28 2005-04-08 Internet information collecting apparatus, program and method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004-313520 2004-10-28
JP2004313520 2004-10-28

Publications (1)

Publication Number Publication Date
WO2006046323A1 true WO2006046323A1 (en) 2006-05-04

Family

ID=36227574

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/006919 WO2006046323A1 (en) 2004-10-28 2005-04-08 Internet information collection device, program, and method

Country Status (2)

Country Link
JP (1) JP4507206B2 (en)
WO (1) WO2006046323A1 (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006323812A (en) * 2004-12-30 2006-11-30 Microsoft Corp Method and device for evaluating various phases of web page
JP2008165356A (en) * 2006-12-27 2008-07-17 Ntt Data Corp Information collection system
JP2010079342A (en) * 2008-09-24 2010-04-08 Hitachi Software Eng Co Ltd System of generating operation instruction for web application
JP2010519663A (en) * 2008-03-04 2010-06-03 アップル インコーポレイテッド Touch event model for web pages
JP2017526041A (en) * 2014-06-26 2017-09-07 グーグル インコーポレイテッド Batch optimized rendering and fetch architecture
JP2019057295A (en) * 2008-03-04 2019-04-11 アップル インコーポレイテッドApple Inc. Touch event model programming interface
US10713330B2 (en) 2014-06-26 2020-07-14 Google Llc Optimized browser render process

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003296341A (en) * 2002-04-03 2003-10-17 Nissan Motor Co Ltd Database generation method, database generation program, data structure, database generation system, retrieval system and retrieval method

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3445912B2 (en) * 1997-01-24 2003-09-16 シャープ株式会社 Hypertext automatic acquisition device
CA2342558A1 (en) * 2000-05-30 2001-11-30 Lucent Technologies, Inc. Internet archive service providing persistent access to web resources
JP2005149136A (en) * 2003-11-14 2005-06-09 Fujitsu Ltd Information collection program, information collection method, information collection system and information collection device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003296341A (en) * 2002-04-03 2003-10-17 Nissan Motor Co Ltd Database generation method, database generation program, data structure, database generation system, retrieval system and retrieval method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HIROSE N.: "Kokuritsu Kokkai Toshokan ni Okeru Web Archiving no Jissen to Kadai", INFORMATION PROCESSING SOCIETY OF JAPAN KENKYU HOKOKU, vol. 2003, no. 51, 23 May 2003 (2003-05-23), pages 12 - 13 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006323812A (en) * 2004-12-30 2006-11-30 Microsoft Corp Method and device for evaluating various phases of web page
JP2008165356A (en) * 2006-12-27 2008-07-17 Ntt Data Corp Information collection system
JP2010519663A (en) * 2008-03-04 2010-06-03 アップル インコーポレイテッド Touch event model for web pages
JP2019057295A (en) * 2008-03-04 2019-04-11 アップル インコーポレイテッドApple Inc. Touch event model programming interface
JP2022160496A (en) * 2008-03-04 2022-10-19 アップル インコーポレイテッド Touch event model programming interface
JP7369833B2 (en) 2008-03-04 2023-10-26 アップル インコーポレイテッド Touch event model programming interface
JP2010079342A (en) * 2008-09-24 2010-04-08 Hitachi Software Eng Co Ltd System of generating operation instruction for web application
JP2017526041A (en) * 2014-06-26 2017-09-07 グーグル インコーポレイテッド Batch optimized rendering and fetch architecture
US9984130B2 (en) 2014-06-26 2018-05-29 Google Llc Batch-optimized render and fetch architecture utilizing a virtual clock
US10713330B2 (en) 2014-06-26 2020-07-14 Google Llc Optimized browser render process

Also Published As

Publication number Publication date
JP4507206B2 (en) 2010-07-21
JPWO2006046323A1 (en) 2008-05-22

Similar Documents

Publication Publication Date Title
US11755346B2 (en) Method and apparatus for user interface modification
JP5636521B2 (en) Configuration of web crawler to extract web page information
JP3879350B2 (en) Structured document processing system and structured document processing method
JP4140916B2 (en) Method for analyzing state transition in web page
JP3857663B2 (en) Structured document editing apparatus, structured document editing method and program
JP5551938B2 (en) Method and apparatus for providing information content to be displayed on a client device
JP4395761B2 (en) Program test support apparatus and method
EP2414929A1 (en) Method and system of retrieving ajax web page content
JP5413198B2 (en) User interface recognition device, user interface recognition method and program
JP4507206B2 (en) Internet information collecting apparatus, program and method
US8302075B1 (en) Methods and systems for selective code collapse
JP4846832B2 (en) Web page display method, computer system, and program
Bellucci et al. Automatic reverse engineering of interactive dynamic web applications to support adaptation across platforms
US20130212557A1 (en) Systems and methods for managing related files in a software development environment
JP4496919B2 (en) Web browsing operation recording / playback apparatus, program, and computer-readable storage medium
JP2009070079A (en) Accessibility check simulation method and simulator
JP7260150B2 (en) WEBSITE DESIGN SUPPORT DEVICE, WEBSITE DESIGN SUPPORT METHOD, AND PROGRAM
JP5476867B2 (en) Mashup program, mashup device, and mashup method
JP4207992B2 (en) Structured document processing system and structured document processing method
US12001324B2 (en) Operation pattern generation apparatus, operation pattern generation method and program
JP5276903B2 (en) Browsing system, plug-in program, and introduction program
JP2003058576A (en) Method and program for controlling display of web page
JP2017004208A (en) Test support device and test support method
JP2001357037A (en) Method and device for retrieving and displaying hierarchically constituted information by using gui
JP2000181779A (en) Hyper link system, its history display method and its program recording medium

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BW BY BZ CA CH CN CO CR CU CZ DK DM DZ EC EE EG ES FI GB GD GE GM HR HU ID IL IN IS JP KE KG KM KR KZ LC LK LR LS LT LU LV MA MG MK MN MW MX MZ NA NI NO OM PG PH PL PT RO RU SC SD SE SG SL SM SY TJ TM TN TR TT TZ UA UG UZ VC VN YU ZA ZM

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SZ TZ UG ZM ZW AM AZ BY KG MD RU TJ TM AT BE BG CH CY DE DK EE ES FI FR GB GR HU IE IS LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006542237

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 05728508

Country of ref document: EP

Kind code of ref document: A1