WO1999053669A1 - Systeme informatique de gestion des liens et procede mettant en oeuvre ledit systeme - Google Patents

Systeme informatique de gestion des liens et procede mettant en oeuvre ledit systeme Download PDF

Info

Publication number
WO1999053669A1
WO1999053669A1 PCT/FR1999/000861 FR9900861W WO9953669A1 WO 1999053669 A1 WO1999053669 A1 WO 1999053669A1 FR 9900861 W FR9900861 W FR 9900861W WO 9953669 A1 WO9953669 A1 WO 9953669A1
Authority
WO
WIPO (PCT)
Prior art keywords
pages
link
links
server
web
Prior art date
Application number
PCT/FR1999/000861
Other languages
English (en)
Inventor
Franck Jeannin
Original Assignee
Linkguard Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Linkguard Ltd filed Critical Linkguard Ltd
Priority to EP99913397A priority Critical patent/EP1072141A1/fr
Priority to IL13894599A priority patent/IL138945A0/xx
Priority to AU31535/99A priority patent/AU3153599A/en
Priority to CA002328082A priority patent/CA2328082A1/fr
Priority to JP2000544111A priority patent/JP2002511627A/ja
Publication of WO1999053669A1 publication Critical patent/WO1999053669A1/fr

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/30Managing network names, e.g. use of aliases or nicknames
    • H04L61/3005Mechanisms for avoiding name conflicts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/30Managing network names, e.g. use of aliases or nicknames

Definitions

  • the present invention relates mainly to a computer system for managing links, in particular hypertext links, and to a method implementing such a system.
  • the network of INTERNET networks ensuring the permanent interconnection of computer networks, is experiencing increasing success due, on the one hand to the ease of access to the network by a temporary connection, in particular by telephone link to a computer of a supplier of access (provider in Anglo-Saxon terminology) connected to the INTERNET and, on the other hand, to the facility for finding information described in the description language of HTML pages of a subset of INTERNET called the World Wide Web or WWW in Anglo-Saxon terminology.
  • INTERNET transcodes domain names into corresponding IP addresses.
  • each document on the web is identified by a character string called URL (or Universal Resource Locator in English terminology).
  • URL or Universal Resource Locator in English terminology.
  • http://www.xxx.com/abc/divers/mapage.html corresponds to the URL of the page called mapage, described in HTML, located in the various sub-directory of the abc directory of the www web server. xxx.com.
  • the web offers ease of navigation and great user-friendliness thanks to the presence of links, the selection of which, in particular in clicking on it, in a page described in HTML language allows to execute various actions:
  • a computer system comprising a link change server which collects information on the pages, in particular in HTML language. including links, preferably external, on changes to page addresses as well as page deletions.
  • the link change server informs the web servers concerned designating the old page addresses.
  • the collection of information on the pages containing links is carried out in cooperation with the web server hosting these pages.
  • the notified change is executed automatically on the server hosting the page containing the link to be modified.
  • FIG. 3 is a flow diagram illustrating the operation of a module called transmitter ensuring the identification of links to be monitored;
  • FIG. 4 is a flow diagram of a link change notification reception process
  • FIG. 5 is a flow diagram of the process for receiving URL modification notification.
  • FIG. 6 is a flow diagram of a module ensuring the reception of notification of change of URL.
  • FIGS. 1 to 6 the same references have been used to designate the same elements.
  • Figures 1 and 2 we can see three web servers 1, 3 and
  • the pages usually published on the web are described in HTML language and are defined, firstly by the name and location of the file stored on the server and, secondly, possibly, by their name incorporated into the code of the page with the ⁇ title> tag.
  • Server 1 provides access to pages 1.1, 1.2, 1.3, 1.4 and 1.5 described, for example, in HTML language.
  • the server 3 provides access to pages 3.1, 3.2 and 3.3 described for example in HTML language.
  • the server 5 provides access to pages 5.1, 5.2 and 5.3 described for example in HTML language.
  • I t is however understood that the present invention is not limited to the use of HTML but applies to any description of content to create links including hypertext, for example using the description languages of SGML, XML, DHTML, ASP pages, APPLE HYPERCARD ® software or document management software.
  • Page 1.1 has a first link 15.1 allowing you to go back to the top of the page without using the scroll bars.
  • a link 15.2 points to page 1.3.
  • Links 15.1 and 15.2 are internal links that are relatively easy to manage. On the one hand, site creation software can incorporate internal link consistency management tools.
  • all pages 1.1 to 1.5 are normally under the responsibility of the same person, the webmaster of the web server 1.
  • a link 15.3 points from page 1.1 to page 3.2 of the server 3.
  • a link 15.4 points from page 1.1 to page 3.1 of the server 3.
  • a link 15.5 points from page 1.1 to page 5.3 of the server 5.
  • Links 15.3 to 15.5 are external links insofar as they point to pages stored on other servers than server 1 hosting page 1.1.
  • a user using a consultation station 11 can connect to the server 1 and display page 1.1 on his station.
  • the links 15.1 to 15.5 facilitate navigation in the information.
  • Other links, not illustrated, can point to images, to JAVA applets or others.
  • the user changes page or place on the page without knowing or having to enter the URLs of the various pages designated by the links 15.2 to 15.5 or the bookmark pointed by the link 15.1.
  • link 15.3 is broken because page 3.2 has been removed.
  • the content of page 5.3 has been moved to page 5.1 of web server 5.
  • the content of page 3.1 has been moved to page 5.5 of web server 5.
  • a list of links is generated and kept up to date making it possible to warn in the event of modification or deletion of a page (servers 3 and 5) the server (1) having links pointing to displaced or nonexistent pages.
  • the link 15.3 bears in reference 2 the reference 15.3 '.
  • the link 15.4 bears in reference 2 the reference 15.4 '.
  • the link 15.5 bears in reference 2 the reference 15.5 '.
  • the link 15.6 bears in reference 2 the reference 15.6 '.
  • a link server 9 stores and keeps up to date the list of external links on the INTERNET, in particular on the World Wide Web. In case of change of a pointed page, it warns the servers concerned with links pointing to this page.
  • the list is generated and / or maintained in a cooperative manner with the web servers which declares the creation, modification, destruction or displacement of pages, as well as the pages pointed by the links of the hosted pages. This cooperation is particularly important for servers with access restriction, in particular with INTRANET servers or servers requiring a password. access password for which the exploration of pages by a computer robot, and consequently the extraction of links from hosted pages, are not possible.
  • the browsing software for the consultation stations 13 also declares to the link server 9 the favorite sites or the consultation bookmarks on the web as well as, possibly, their electronic mail addresses.
  • the server 9 signals to the consultation stations 13 provided with navigation software according to the present invention the updates to be carried out or, in the event of direct connection to server 9, performs the change.
  • the consultation station 13 has a shortcut 15.6 to page 3.1 of the web server 3. After notification by the link server 9, the shortcut 15.6 'of the consultation station 13 points to page 5.5 of the web server 5
  • the same link 15.6 to page 3.1 starting from a consultation station 11 of known type is not automatically modified and consequently points to a page which is no longer relevant.
  • the navigation software when a broken link is detected (HTTP error 404), the navigation software does not display the associated messages but connects to the link server 9 to read the new address of the page to point to.
  • the link server 9 is only consulted for broken links, which limits traffic on the INTERNET 7.
  • the computer system comprises a module for transmitting information on links installed on the various web servers, illustrated in FIG. 3, a link server 9 provided with a module for receiving information on links.
  • the receiver module of FIG. 3 comprises a step 16 of storage in a difference file ⁇ of the history of modifications of page addresses.
  • any modification (deletion, displacement) of the page is immediately notified to the link server 9 without wait for the preparation of the scan file ⁇ of all the pages hosted in search of the links to be processed.
  • this scanning is limited to external links.
  • the scanning step 17 consists, for example, in searching the code of the pages of the character string of the type:
  • protocol designates the protocol used, for example HTTP
  • server means the address or designation of the hosting server
  • directory designates the directory and the possible subdirectories for storing the code file
  • file is the name of the code file forming the page.
  • the list i also includes the logical locations corresponding to the various HTML pages. We go to 21. In 21, we check if there is an earlier list.
  • the current list (list i) is compared with the previous list (list i-1) and the difference is stored in a difference file ⁇ .
  • the current list (list i) is stored in the difference file ⁇ .
  • the list ⁇ is transmitted to the link server 9.
  • the list ⁇ possibly supplemented by the more or less complete history of the evolutions of the various pages hosted by the server is made available. for consultation through I NTERNET.
  • the ⁇ list includes, for example, messages for adding pages, concerning new pages added, modifications to pages concerning renamed or moved pages, deletions of pages. concerning the deleted pages, the addition of links concerning the new external links created, the modification of links indicating the modified links and the deletion of links concerning the deleted links.
  • server 3 notifies the link server that page 3.2 has been deleted and that page 3.1 has been modified while web server 5 indicates pages 5.1 and 5.3 have been modified and that pages 5.4 and 5.5 have been added.
  • Transmission 27 can be done by email, the procedure can be done automatically or after validation by the issuer's webmaster to check the consistency, accuracy and absence of confidential information in the notification to the link server 9.
  • the transmission can also be carried out according to the TCP / IP network transmission protocol, in particular upon interrogation of the web server by the link server 9.
  • the transmission 27 can also be carried out by a high-level protocol of the HTTP type.
  • the link server 9 connects to the web server and executes a standard script, for example according to the standard called in English terminology Common Gateway Interface or CGI and advantageously executes a script preferably written in PERL language which is particularly optimized. for handling arbitrary strings.
  • the script displays the list of file ⁇ which is retrieved by the link server 9.
  • the link server 9 browses all the web servers declaring that it includes a sender module.
  • the ⁇ file is advantageously deleted on the Web server.
  • the transmission 27 can be carried out by any protocol understandable by the recipient, such as for example voice synthesis, a fax, a message on a personal call receiver (pager in English terminology) or a short message (Short Message System or SMS in English terminology) addressed to the webmaster of the server concerned.
  • a protocol understandable by the recipient, such as for example voice synthesis, a fax, a message on a personal call receiver (pager in English terminology) or a short message (Short Message System or SMS in English terminology) addressed to the webmaster of the server concerned.
  • FIGS. 4 and 5 the operation of the link server 9 has been illustrated.
  • the server ensures the reception, by electronic mail, transmission in TCP / IP mode or in HTTP mode of the ⁇ files. 10
  • the link server 9 updates the database 32 of links, in particular external links on the World Wide Web. As a variant, it also receives the declarations of the bookmarks or favorites of the post navigation software 13 according to the present invention.
  • the link server receives notifications of changes to URLs of web pages. Information on these modifications can be included in the ⁇ files or be stored and transmitted separately.
  • the link server 9 scans the various web servers to constitute the list of web pages, their location and the links which they contain. This list can also be compiled from the I NTERNET indexing database compiled by search engines and including indexing of links.
  • the web server 9 advantageously assigns a compact signature to the page. This signature includes the ⁇ t ⁇ tle> tag among HTML pages supplemented, preferably, by relevant data identifying the page based on the occurrences of words, images, the layout used and / or by semantic analysis of the text. or check sum, that is to say the value, for example weighted, of the sum of the values of the characters composing the page, so as to facilitate the identification of the pages moved.
  • a server 3, 5 moving 3.1, 5.1 or deleting 3.2, a page notifies these changes to the servers having informed them that they are hosting pages with links directed to modified pages.
  • the link server 9 scans the link database to establish a list of possible links affected by the changes or deletions of the pages, that is to say the list of pages comprising links which are now broken.
  • the link server 9 notifies the web servers comprising the broken links of the modifications, displacements or deletions of the pages.
  • This notification can also be made by email, notification in TCP / IP transmission mode, HTTP type transmission or other.
  • FIG. 6 The operation of a notified web server 1 is illustrated in FIG. 6.
  • the server 1 receives a notification of change of the URLs of the pages designated by the links 15.3 to 15.5.
  • the webmaster advantageously performs a validation of the proposed modifications.
  • refusal of validation we go to 43 This absence of validation can come from an uncertainty about the origin of the message received at 39 or its relevance.
  • the transmitting and receiving modules on the various servers 1, 3 or 5 can be carried out periodically, upon manual triggering by the webmaster, in particular after a modification of the pages or operate in the background with activation in particular in the event of modification of the HTML pages.
  • these modules can be made up of programs called DAEMON while on servers running on the WINDOWS NT ® operating system, they can be called modules SERVICES.
  • the robot traversing the World Wide Web to constitute a database on the URLs of the HTML pages and of the links which they contain, avoids the exploration of the cooperative servers having carried out a list notification.
  • a server 3 or 5 modifies or deletes a page, it makes a connection to the link server 9 to inquire about the list of servers 1 comprising pages 1.1 comprising links 12
  • I t can prove to be extremely advantageous to provide the system according to the present invention with security devices preventing false notification, in particular malicious notifications and / or attempts to create unwanted links.
  • Any security system of known type can be used, in particular the authentication of the author of the message and of the integrity of the content.
  • We can for example encrypt messages for example with so-called public key encryption algorithms, such as RSA or DSA, PGP or the PGP / Mime or S / Mime protocols.
  • Public key cryptography systems are notably described in US-A-4,200,770, US-A-4,218,582, US-A-4,405,829, US-A-4,424,414 and US-A-4,995,082 as well as in the book "Applied cryptography", second edition, by Bruce Schneier.
  • the called server calls back the sender of the message with incorporation of a random number of authentication.
  • the response includes the random number or a number derived from the random authentication number.
  • the preferred variant of the present invention takes into account the fact that, frequently, the administrator of a website, in particular of small websites, has a local copy of his site on his computer or his workstation which is not permanently connected to the Internet. On the contrary, the website server is permanently connected to it. The modifications made to the pages of the local copy are uploaded to the actual web server, for example by the FTP protocol. In such a case, the administrator loads on the computer comprising the local copy of its site client software ensuring cooperation with the link server 9.
  • the administrator registers on the link server 9 by giving the address of its website (ex: http: // www.monserveur.com/ or possibly a sub-directory if the site is shared http://www.unserveur.com/monrepertoire/) and its e-mail address (ex: myname @ myserver.com). This is done either directly by filling out a form on the website of the link server 9 or by configuring the client software. 13
  • the list of couples (link location, link) is drawn up by the client software, which browses all the files contained in the local copy of the site and extracts the language tags used, including HTML for links. For each link found, the client software created a new entry in the list containing the address that the page containing the link, will have on the Web server itself, associated with the value of the link. Once the list has been drawn up, the client software connects to the link server 9, for example via an HTTP protocol and transmits the list of couples (link location, link).
  • the client software establishes only a list of the pages of its site and saves it in the link server 9. To do this, the client software scans all the files contained in the local copy of the site and connects to the link server 9 via, for example the HTTP protocol passing the address of the pages browsed in parameters.
  • Link servers connect to HTTP pages saved in this way and browse for external links. The external links found are added to the link database under the reference of the user's website 3.
  • the link server constantly monitors all registered links belonging to unregistered servers by connecting via HTTP.
  • the administrator 3 who receives a notification message asking him to synchronize uses the client software to connect via HTTP to the link server.
  • the date of the last update of the "client” is passed in parameter during the connection and all the modifications subsequent to this date and relating to the current site are transmitted to the "client" in HTML format.
  • the client software interprets the HTML code returned in the previous step and applies the corresponding modifications to the local copy of the site files. It does this either by deleting the links (deleted pages) or by replacing the links (moved pages) and this after validation by the administrator.
  • the administrator works on the local copy of his site deleting, adding, moving or modifying the content of his pages.
  • the administrator updates his website proper, permanently connected to I NTERNET by copying (via FTP for example) the local copy of the files to his site.
  • the administrator uses the client software to report any changes applied to his site.
  • the software detects the pages added, deleted, moved or modified by comparison of the "Delta" directory ( ⁇ ) and the local copy of the site.
  • This information can be verified and modified by the administrator.
  • the client software connects to the link server 9 using HTTP to report the changes.
  • the link server advantageously checks the validity of the information transmitted in the previous step by connecting via HTTP via INTERNET AND to the administrator's website.
  • the modified or added pages are scanned to determine their external links. For moved pages, we check that the old page no longer exists and that the new one exists. For deleted pages, we check that the old page no longer exists.
  • the purpose of this step is to avoid falsification of information and the risk of malicious false notifications.
  • the administrator can register directly from the actual website permanently connected to the INTERNET and receive notifications there.
  • the server 9 can also perform the detection of movements and the deletion of pages on servers not registered on the link server 9. In this 15
  • HTTP error 404 When the page pointed to no longer exists (HTTP error 404), we connect to the page containing the internal link and determine the new address pointed to by this link.
  • the internal link having logically already been updated by the site administrator, we thus obtain the new address of the page thereby resolving the external link.
  • the address pointed to by the rectified internal link is notified as a corrected external link on the pages of other Web servers which contain an external link equal to the old internal link.
  • the present invention applies to any computer system comprising links, in particular external links, such as document management system, local network, messaging.
  • the present invention applies mainly to pages containing links on the World Wide Web.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

La présente invention se rapporte principalement à un système informatique de gestion de liens, notamment de liens hypertextes, et à un procédé mettant en oeuvre un tel système. Un système informatique selon la présente invention comporte un serveur (3) de changement de liens qui collecte l'information sur les pages (1.1), notamment en langage HTML comprenant des liens, de préférence externes, sur les modifications des adresses de pages ainsi que sur les suppressions de pages. Lors d'une modification ou d'une suppression de page, le serveur de changement (9) de liens informe les serveurs web (1) concernés désignant les anciennes adresses des pages. La présente invention s'applique principalement aux pages comportant des liens sur le World Wide Web.

Description

SYSTEME INFORMATIQUE DE GESTION DES LIENS ET PROCEDE METTANT EN OEUVRE LEDIT SYSTEME
La présente demande revendique la priorité de la demande française n° 98 04660 du 15 avril 1998 qui est incorporée par références. La présente invention se rapporte principalement à un système informatique de gestion de liens, notamment de liens hypertextes, et à un procédé mettant en oeuvre un tel système
Le réseau des réseaux INTERNET assurant l'interconnexion permanente des réseaux informatiques, connaît un succès grandissant dû, d'une part à la facilité d'accès au réseau par une connexion temporaire, notamment par liaison téléphonique à un ordinateur d'un fournisseur d'accès (provider en terminologie anglo-saxonne) connecté à l'INTERNET et, d'autre part, à la facilité de recherche d'informations décrites dans le langage de description de pages HTML d'un sous ensemble d'INTERNET appelé World Wide Web ou WWW en terminologie anglo-saxonne. Les pages décrites en langage HTML sont interprétées et affichées par des logiciels de navigation (browser en terminologie anglo saxonne) notamment par logiciel NAVIGATOR® de la Société NETSCAPE ou INTERNET EXPLORER® de la Société MICROSOFT A chaque ordinateur d'INTERNET, est assignée une adresse IP permanente ou temporaire formée d'une suite de chiffres séparés par des points Toutefois, pour se connecter par l'intermédiaire de l'INTERNET à un ordinateur ayant des pages en langage HTML à afficher, appelé serveur web, il suffit à un utilisateur de connaître son nom de domaine composé normalement par une chaîne de caractères du type : http://www.xxx.com/
INTERNET assure le transcodage des noms de domaines en adresses IP correspondantes. De même, chaque document du web est identifié par une chaîne de caractères appelée URL (ou Universal Resource Locator en terminologie anglo-saxonne). Par exemple : http://www.xxx.com/abc/divers/mapage.html correspond à l'URL de la page intitulée mapage, décrite en HTML, située dans le sous-répertoire divers du répertoire abc du serveur web www.xxx.com. Le web offre une facilité de navigation et une grande convivialité grâce à la présence de liens dont la sélection, notamment en cliquant dessus, dans une page décrite en langage HTML permet d'exécuter divers actions :
- se déplacer sur une page (vers un signet) ;
- se déplacer vers une autre page du document (même serveur, liens internes) ;
- envoyer des messages vers une boîte de réception de courrier électronique (e-mail en terminologie anglo-saxonne) ou
- se déplacer vers une page d'un autre serveur web (lien externe). Un lien externe vers la page par défaut du sous-répertoire divers du répertoire abc du serveur www.xxx.com s'écrit en langage HTML : <a href = "http://www.xxx.com/abc/divers/"> Les liens se présentent par défaut sur la page HTML comme un texte de couleur bleue souligné. Ce texte incorporé au code de la page à la suite du lien est terminée par la chaîne de caractères :
<a/> D'autres présentations peuvent être déclarées (telles que d'autres couleurs, images, etc.). Lors du passage sur un lien, le curseur se transforme en un dessin représentant une main pointant vers le haut. Ce mode de navigation dans lequel l'utilisateur n'a pas à connaître, ni, a fortiori, à saisir les URL, confère une convivialité sans égale au web. Toutefois, si les liens pointent vers une adresse erronée, on obtient l'affichage d'une page non désirée, alors que si l'URL du lien n'est pas valide, se produit l'erreur 404 du protocole HTTP avec l'affichage d'un message du type :
FILE NOT FOUND
The requested URL/xyz.htm was not found on this server.
Une telle erreur provient exceptionnellement d'une erreur de saisie de l'URL du lien ou, plus fréquemment, d'une page qui a été déplacée ou supprimée. On parle alors d'un lien cassé. L'apparition d'un tel message compromet gravement la convivialité de la consultation. Cela est particulièrement vrai pour les liens externes pour lesquels le responsable du site web (webmaster en terminologie anglo-saxonne) n'a pas d'outil de contrôle de cohérence des liens et n'est pas nécessairement informé du changement des adresses des pages désignées par les liens. Pour remédier à ce problème, on a proposé de remplacer les liens par des noms symboliques invariants URN ou Universal Resource Name en terminologie anglo-saxonne. Un ou des serveurs assurerait la traduction des URN invariants en URL. Ainsi, seul le ou les serveurs de noms connaîtrait l'emplacement physique des documents, évitant ainsi que cette information soit stockée de façon redondante par tous les serveurs qui en font l'usage. Ce serveur de nom serait plus facile à mettre à jour. Une telle solution n'a jamais été adoptée sur INTERNET car elle présente de nombreux inconvénients. D'une part, pour se connecter à un site, il faudrait tout d'abord se connecter au serveur de noms, ce qui doublerait le nombre de connexions et, par suite, le temps d'obtention de l'information désirée. De plus, le serveur de noms serait interrogé par de très nombreux serveurs web et deviendrait un goulot d'étranglement extrêmement pénalisant pour la transmission de l'information. PITKOW : "Supporting the web : A distributed hyperlink database System", Computer Networks and ISDN Systems, Vol. 28, n° 11, mai 1996, pages 981-991, décrit l'incorporation à un serveur Web d'un serveur "Atlas" susceptible de communiquer avec d'autres serveurs "Atlas" incorporés à d'autres serveurs Web pour leur indiquer les changements de pages. Ainsi, chaque serveur Web doit comporter un serveur "Atlas". Au contraire, le système selon la présente invention peut comporter un unique serveur de lien assurant le fonctionnement d'un très grand nombre de serveurs Web.
C'est par conséquent un but de la présente invention d'offrir un système informatique permettant d'éviter l'apparition de liens cassés, notamment sur le World Wide Web.
C'est également un but de la présente invention d'offrir un tel système générant un faible trafic sur le réseau.
C'est également un but de la présente invention d'offrir un système ayant une grande sécurité de fonctionnement.
C'est aussi un but de la présente invention d'offrir un système permettant de mettre à jour les signets désignant les sites favoris au niveau des logiciels de navigation des postes de consultation individuels.
Ces buts sont atteints par un système informatique selon la présente invention comportant un serveur de changement de liens qui collecte l'information sur les pages, notamment en langage HTML comprenant des liens, de préférence externes, sur les modifications des adresses de pages ainsi que sur les suppressions de pages. Lors d'une modification ou d'une suppression de page, le serveur de changement de liens informe les serveurs web concernés désignant les anciennes adresses des pages.
Avantageusement, la collecte d'informations sur les pages comportant des liens est réalisée en coopération avec le serveur web hébergeant ces pages.
Avantageusement, le changement notifié est exécuté automatiquement sur le serveur hébergeant la page comportant le lien à modifier.
La présente invention sera mieux comprise au moyen de la description ci-après et des figures annexées données comme des exemples non limitatifs et sur lesquelles : - la figure 1 est un schéma de quelques ordinateurs connectés à l'INTERNET comportant des liens valides ;
- la figure 2 est un schéma analogue des ordinateurs après modification de liens ;
- la figure 3 est un diagramme de flux illustrant le fonctionnement d'un module appelé émetteur assurant le recensement de liaisons à surveiller ;
- la figure 4 est un schéma de flux d'un processus de réception de notification de changement de liens ;
- la figure 5 est un schéma de flux du processus de réception de notification de modification des URL ; et
- la figure 6 est un diagramme de flux d'un module assurant la réception de notification de changement d'URL.
Sur les figures 1 à 6, on a utilisé les mêmes références pour désigner les mêmes éléments. Sur les figures 1 et 2, on peut voir trois serveurs web 1 , 3 et
5 connectés par l'intermédiaire de l'INTERNET 7 à un serveur de liens 9, un poste de consultation de type classique 11 et un poste de consultation 13 selon la présente invention.
Les pages habituellement publiées sur le web sont décrites dans le langage HTML et sont définies, d'une part par le nom et l'emplacement du fichier stocké sur le serveur et, d'autre part, éventuellement, par leur dénomination incorporée dans le code de la page avec la balise <title>. Le serveur 1 permet d'accéder aux pages 1.1 , 1.2, 1.3, 1.4 et 1.5 décrites, par exemple, en langage HTML.
Le serveur 3 permet d'accéder aux pages 3.1 , 3.2 et 3.3 décrites par exemple en langage HTML. Le serveur 5 permet d'accéder aux pages 5.1 , 5.2 et 5.3 décrites par exemple en langage HTML.
I l est toutefois bien entendu que la présente invention n'est nullement limitée à l'emploi du langage HTML mais s'applique à toute description d'un contenu permettant de créer des liens notamment hypertextes, par exemple en utilisant les langages de description de pages SGML, XML, DHTML, ASP, le logiciel HYPERCARD® de la Société APPLE ou un logiciel de gestion documentaire.
La page 1.1 comporte un premier lien 15.1 permettant de remonter en haut de la page sans utiliser les barres de défilement. Un lien 15.2 pointe vers la page 1.3. Les liens 15.1 et 15.2 sont des liens internes qui sont relativement faciles à gérer. D'une part, les logiciels de création de sites peuvent incorporer des outils de gestion de cohérence des liens internes. D'autre part, toutes les pages 1.1 à 1.5 sont normalement sous la responsabilité d'une même personne, le webmaster du serveur web 1. Un lien 15.3 pointe de la page 1.1 vers la page 3.2 du serveur 3. Une liaison 15.4 pointe de la page 1.1 vers la page 3.1 du serveur 3. Une liaison 15.5 pointe de la page 1.1 vers la page 5.3 du serveur 5. Les liaisons 15.3 à 15.5 sont des liaisons externes dans la mesure où elles pointent vers des pages stockées sur d'autres serveurs que le serveur 1 hébergeant la page 1.1. Un utilisateur utilisant un poste de consultation 11 , typiquement un micro-ordinateur muni d'un logiciel de navigation et de consultation de pages comme par exemple INTERNET EXPLORER, peut se connecter au serveur 1 et afficher sur son poste la page 1.1. Les liens 15.1 à 15.5 facilitent la navigation dans l'information. D'autres liens, non illustrés, peuvent pointer vers des images, vers des applets JAVA ou autres. Un lien pointant vers l'image moi. gif du répertoire abc du serveur www.xxx.com s'écrit en HTML : <img src = "http://www.XXX.com/abc/moi.gif"> En cliquant sur un des liens, l'utilisateur change de page ou d'endroit sur la page et cela sans connaître ni sans avoir à saisir les URL des divers pages désignées par les liens 15.2 à 15.5 ni le signet pointé par le lien 15.1. Cette situation peut être perturbée, comme illustré sur la figure 2, par la disparition ou le déplacement de certaines pages désignées par des liens, notamment externes. De plus, l'emplacement de certaines pages sur des serveurs web n'est conservé que pour justement éviter de provoquer une cassure de liens désignant ces pages. Le serveur hébergeant ces pages ayant évolué, le webmaster fige la structure pour éviter de casser des liens.
Dans l'exemple de la figure 2, le lien 15.3 est cassé car la page 3.2 a été supprimée. Le contenu de la page 5.3 a été déplacé vers la page 5.1 du serveur web 5. Le contenu de la page 3.1 est déplacé vers la page 5.5 du serveur web 5.
Ainsi, un utilisateur de la station 11 de consultation connecté à l'INTERNET verra sa consultation perturbée si les liens 15.3, 15.4 et 15.5 ne sont pas mis à jour. Cette mise à jour n'est pas facile dans la mesure où le webmaster des ordinateurs 3 et 5, sans des recherches très lourdes sur le web ne peuvent pas savoir quels sont les liens qui pointent vers les pages hébergées par leurs serveurs.
Selon la présente invention, on génère et maintient à jour une liste des liens permettant d'avertir en cas de modification ou de suppression de page (serveurs 3 et 5) le serveur (1) présentant des liens pointant vers les pages déplacées ou inexistantes.
Après rectification, le lien 15.3 porte sur la figure 2 la référence 15.3'. Après rectification, le lien 15.4 porte sur la figure 2 la référence 15.4'. Après rectification, le lien 15.5 porte sur la figure 2 la référence 15.5'. Après rectification, le lien 15.6 porte sur la figure 2 la référence 15.6'.
Selon l'exemple préféré de la présente invention, un serveur de liens 9 stocke et maintient à jour la liste de liens externes sur INTERNET, notamment sur le World Wide Web. En cas de changement d'une page pointée, il avertit les serveurs concernés comportant des liens pointant vers cette page. Avantageusement, la liste est générée et/ou maintenue de manière coopérative avec les serveurs web qui déclare la création, la modification, la destruction ou le déplacement de pages, ainsi que les pages pointées par les liens des pages hébergées. Cette coopération est particulièrement importante pour les serveurs avec restriction d'accès, notamment avec les serveurs INTRANET ou les serveurs exigeant un mot de passe d'accès pour lequel l'exploration de pages par un robot informatique, et par suite l'extraction des liens des pages hébergées, ne sont pas possibles. Dans une variante de réalisation, les logiciels de navigation des postes de consultation 13 déclarent également au serveur de liens 9 les sites favoris ou les signets de consultation sur le web ainsi que, éventuellement, leurs adresses de messagerie électronique. En cas de changement d'adresse d'un site ou des pages d'un site, le serveur 9 signale aux postes de consultation 13 muni d'un logiciel de navigation selon la présente invention les mises à jour à effectuer ou, en cas de connexion directe au serveur 9, effectue le changement.
Par exemple, le poste de consultation 13 comporte un raccourci 15.6 vers la page 3.1 du serveur web 3. Après notification par le serveur de liens 9, le raccourci 15.6' du poste de consultation 13 pointe vers la page 5.5 du serveur web 5 Par contre, un même lien 15.6 vers la page 3.1 partant d'un poste de consultation 11 de type connu n'est pas modifié automatiquement et par suite pointe vers une page qui n'est plus pertinente.
En variante, lors de la détection d'un lien cassé (erreur HTTP 404), le logiciel de navigation n'affiche pas les messages associés mais se connecte au serveur de liens 9 pour lire la nouvelle adresse de la page à pointer. Ainsi, le serveur de liens 9 n'est consulté que pour des liens cassés, ce qui limite le trafic sur INTERNET 7.
Avantageusement, le système informatique selon la présente invention comporte un module émetteur d'informations sur les liens installé sur les divers serveurs web, illustré sur la figure 3, un serveur de liens 9 muni d'un module de réception d'informations sur les liens illustrés sur la figure 4, un module d'acquisition ou de réception d'informations sur la modification des pages sur les divers serveurs web, illustré sur la figure 5 et des modules récepteurs illustrés sur la figure 6, avantageusement répartis sur les divers serveurs web assurant la réception d'informations concernant les pages modifiées pointées par les liens du serveur récepteur.
Le module récepteur de la figure 3 comporte une étape 16 de stockage dans un fichier différence Δ de l'historique des modifications des adresses de pages. En variante, toute modification (suppression, déplacement) de page est immédiatement notifiée au serveur de lien 9 sans attendre l'élaboration du fichier Δ de balayage de toutes les pages hébergées à la recherche des liens à traiter. De préférence ce balayage est limité aux liens externes. On va en 17. L'étape 17 de balayage consiste par exemple en la recherche dans le code des pages de la chaîne de caractères du type :
<a href = protocole://serveur/répertoιre/fιchιer> où : protocole désigne le protocole utilisé, par exemple HTTP ; serveur désigne l'adresse ou la désignation du serveur d'hébergement ; répertoire désigne le répertoire et les éventuels sous- répertoires de stockage du fichier de code ; et fichier désigne le nom du fichier de code formant la page. On va en 19. En 19, on établit la liste à l'instant i de tous les liens à traiter (notamment des liens externes).
La liste i comporte également les emplacements logiques correspondant aux divers pages HTML. On va en 21. En 21 , on vérifie s'il existe une liste antérieure.
Si OU I , on va en 23. Si non, on va en 25.
En 23, on compare la liste actuelle (liste i) avec la liste précédente (liste i- l) et on stocke la différence dans un fichier de différence Δ.
On va en 27.
En 25, on stocke la liste actuelle (liste i) dans le fichier différence Δ.
On va en 27. En 27, on transmet la liste Δ au serveur de liens 9. En variante, la liste Δ, éventuellement complétée par l'historique plus ou moins complet des évolutions des diverses pages hébergées par le serveur est mise à la disposition pour consultation par l'intermédiaire de l'I NTERNET.
La liste Δ comporte par exemple des messages d'ajout de pages, concernant les nouvelles pages ajoutées, les modifications de pages concernant des pages renommées ou déplacées, les suppressions de pages concernant les pages supprimées, les ajouts de liens concernant les nouveaux liens externes créés, la modification de liens indiquant les liens modifiés et la suppression de liens concernant les liens supprimés. Par exemple, le serveur 3 avertit le serveur de liens que la page 3.2 a été supprimée et que la page 3.1 a été modifiée alors que le serveur web 5 indique les pages 5.1 et 5.3 ont été modifiées et que les pages 5.4 et 5.5 ont été ajoutées.
La transmission 27 peut s'effectuer par courrier électronique, la procédure peut s'effectuer de manière automatique ou après validation par le webmaster de l'émetteur pour vérifier la cohérence, l'exactitude et l'absence d'informations confidentielles dans la notification au serveur de liens 9.
La transmission peut également s'effectuer selon le protocole de transmission réseau TCP/IP, notamment sur interrogation du serveur web par le serveur de liens 9.
La transmission 27 peut aussi s'effectuer par un protocole de haut niveau de type HTTP. Par exemple, le serveur de liens 9 se connecte au serveur web et exécute un script standard, par exemple selon le standard dénommé en terminologie anglo-saxonne Common Gateway Interface ou CGI et exécute avantageusement un script de préférence écrit en langage PERL qui est particulièrement optimisé pour la manipulation de chaînes de caractères arbitraires. Le script affiche la liste du fichier Δ qui est récupérée par le serveur de liens 9. Le serveur de liens 9 parcourt tous les serveurs web déclarant comporter un module émetteur. Le fichier Δ est avantageusement effacé sur le serveur Web.
D'une manière générale la transmission 27 peut s'effectuer par tout protocole compréhensible par le destinataire, comme par exemple la synthèse vocale, une télécopie, un message sur un récepteur d'appel de personne (pager en terminologie anglo-saxonne) ou un message court (Short Message System ou SMS en terminologie anglo-saxonne) adressée au webmaster du serveur concerné.
Sur les figures 4 et 5, on a illustré le fonctionnement du serveur de liens 9.
En 29, le serveur assure la réception, par courrier électronique, transmission en mode TCP/IP ou en mode HTTP des fichiers Δ. 10
On va en 31.
En 31 , le serveur de liens 9 effectue la mise à jour de la base de données 32 des liens, notamment externes sur le World Wide Web. En variante, il reçoit également les déclarations des signets ou favoris des logiciels de navigation de poste 13 selon la présente invention.
En 33 (figure 5) le serveur de liens reçoit les notifications des modifications des URL des pages web. Les informations sur ces modifications peuvent être incluses dans les fichiers Δ ou être stockées et transmises séparément. En variante, en mode non coopératif, le serveur de liens 9 balaie les divers serveurs web pour constituer la liste des pages web, leur emplacement et les liens qu'elles contiennent. Cette liste peut également être élaborée à partir de la base de données d'indexation de l'I NTERNET élaborée par les moteurs de recherche et comportant une indexation des liens. Le serveur web 9 assigne avantageusement une signature compacte à la page. Cette signature inclut la balise <tιtle> parmi des pages HTML complétée, de préférence, par des données pertinentes d'identification de la page basées sur les occurrences des mots, des images, la mise en page employée et/ou par analyse sémantique du texte ou le check sum, c'est-à- dire la valeur, par exemple pondérée, de la somme des valeurs des caractères composant la page, de manière à faciliter l'identification des pages déplacées.
En variante, le serveur 1 hébergeant des pages comportant des liens externes 15.3 à 15.5 vers des pages 3.1 , 3.2, 5.3 hébergées par d'autres serveurs web 3, 5 leur notifie l'existence et la teneur de ces liens. En retour, un serveur 3, 5 déplaçant 3.1 , 5.1 ou supprimant 3.2, une page notifie ces changements aux serveurs les ayant informés qu'ils hébergent des pages présentant des liens dirigés vers des pages modifiées. On va en 35. En 35, le serveur de liens 9 balaie la base de liens pour établir une liste d'éventuels liens affectés par les changements ou suppressions des pages, c'est-à-dire la liste des pages comportant des liens qui sont désormais cassés. On va en 37. 11
En 37, le serveur de liens 9 notifie aux serveurs web comportant les liens cassés les modifications, déplacements ou suppressions des pages.
Cette notification peut également s'effectuer par courrier électronique, notification en mode de transmission TCP/IP, transmission de type HTTP ou autre.
Le fonctionnement d'un serveur web 1 notifié est illustré sur la figure 6.
En 39, le serveur 1 reçoit une notification de changement des URL des pages désignées par les liens 15.3 à 15.5.
On va en 41.
En 41 , le webmaster effectue avantageusement, une validation des modifications proposées. En cas de refus de validation, on va en 43 Cette absence de validation peut provenir d'une incertitude sur l'origine du message reçu en 39 ou de sa pertinence.
En cas de validation, on va en 45.
En 45, on effectue les modifications des URL dans les pages HTML 1.1 concernées. Le programme se termine en 43.
Les modules émetteurs et récepteurs sur les divers serveurs 1 , 3 ou 5, peuvent être effectués périodiquement, sur déclenchement manuel du webmaster, notamment après une modification des pages ou fonctionner en tâche de fond avec activation notamment en cas de modification des pages HTML. Par exemple, sur le serveur tournant sur le système d'exploitation UNIX®, ces modules peuvent être constitués par des programmes dénommés DAEMON alors que sur les serveurs tournant sur le système d'exploitation WINDOWS NT®, il peut s'agir des modules dénommés SERVICES.
Avantageusement, en mode mixte coopératif-non coopératif, le robot parcourant le World Wide Web pour constituer une base de données sur les URL des pages HTML et des liens qu'elles comportent, évite l'exploration des serveurs coopératifs ayant effectué une notification de liste
Δ.
En variante, lorsqu'un serveur 3 ou 5 modifie ou supprime une page, il effectue une connexion au serveur de liens 9 pour s'enquérir de la liste des serveurs 1 comportant des pages 1.1 comprenant des liens 12
15.3, 15.4, 15.5 pointant vers une page modifiée et effectue lui-même les notifications au serveur 1.
I l peut s'avérer extrêmement avantageux de munir le système selon la présente invention des dispositifs de sécurité empêchant une fausse notification, notamment les notifications malveillantes et/ou les tentatives pour créer des liens non désirés. On peut utiliser tout système de sécurité de type connu, notamment l'authentification de l'auteur du message et de l'intégrité du contenu. On peut par exemple crypter les messages par exemple avec des algorithmes de cryptage dit à clés publiques, telles que RSA ou DSA, PGP ou les protocoles PGP/Mime ou S/Mime. Les systèmes de cryptographie à clés publiques sont notamment décrits dans US-A-4 200 770, US-A-4 218 582, US-A-4 405 829, US-A-4 424 414 et US-A-4 995 082 ainsi que dans le livre "Applied cryptography", seconde édition, de Bruce Schneier. En variante, on peut également utiliser le mécanisme de rappel automatique (call-back en terminologie anglo-saxonne). Le serveur appelé rappelle l'émetteur du message avec incorporation d'un nombre aléatoire d'authentification. La réponse comporte le nombre aléatoire ou un nombre dérivé du nombre aléatoire d'authentification. La variante préférée de réalisation de la présente invention tient compte du fait que, fréquemment, l'administrateur d'un site Web, notamment de petits sites Web, dispose d'une copie locale de son site dans son ordinateur ou sa station de travail qui n'est pas connecté en permanence à Internet. Au contraire, le serveur du site Web y est connecté en permanence. Les modifications apportées aux pages de la copie locale sont téléchargées sur le serveur Web proprement dit, par exemple par le protocole FTP. Dans un tel cas, l'administrateur charge sur l'ordinateur comportant la copie locale de son site un logiciel client assurant la coopération avec le serveur de liens 9. L'administrateur s'enregistre sur le serveur de liens 9 en donnant l'adresse de son site Web (ex: http:// www.monserveur.com/ ou éventuellement un sous répertoire si le site est partagé http://www.unserveur.com/monrepertoire/) et son adresse de courrier électronique (ex: monnom@monserveur.com). Ceci se fait soit directement en remplissant un formulaire sur le site Web du serveur de liens 9 soit en configurant le logiciel client. 13
Dans une première variante de réalisation, l'élaboration de la liste des couples (emplacement de lien, lien) est effectuée par le logiciel client qui parcours l'ensemble des fichiers contenus dans la copie locale du site et extrait les balises du langage utilisé, notamment du HTML correspondant à des liens. Pour chaque lien trouvé, le logiciel client créait une nouvelle entrée dans la liste comportant l'adresse que la page comportant le lien, aura sur le serveur Web proprement dit, associée à la valeur du lien. Une fois la liste élaborée, le logiciel client se connecte au serveur de liens 9, par exemple via un protocole HTTP et transmet la liste des couples (emplacement de lien, lien).
Dans la variante de réalisation préférée, le logiciel client établi uniquement une liste des pages de son site et l'enregistre dans le serveur de liens 9. Pour faire cela, le logiciel client parcours l'ensemble des fichiers contenus dans la copie locale du site et se connecte au serveur de liens 9 via, par exemple le protocole HTTP passant l'adresse des pages parcourues en paramètres.
Si la connexion au serveur de liens 9 fonctionne, le fichier est copié dans un répertoire "Delta" (Δ), utilisé plus tard à des fins de comparaison. Les serveurs de liens se connectent en HTTP aux pages ainsi enregistrées et les parcourent à la recherche de liens externes. Les liens externes trouvés sont ajoutés à la base liens sous la référence du site Web de l'utilisateur 3.
Le serveur de liens surveille en permanence tous les liens enregistrés appartenant à des serveurs non enregistrés en se connectant via HTTP.
Dès qu'un lien est détecté cassé ou déplacé et ce, que ce soit par détection directe du serveur de lien 9 ou par notification d'un autre utilisateur via le serveur de liens 9, un message électronique est envoyé à l'utilisateur 3 lui demandant de se synchroniser avec le serveur de liens.
L'administrateur 3 qui reçoit un message de notification lui demandant de se synchroniser utilise le logiciel client pour se connecter en HTTP au serveur de liens. La date de dernière mise à jour du "client" est passée en paramètre lors de la connexion et toutes les modifications postérieures à cette date et relatives au site courant sont transmises au "client" en format HTML. 14
Le logiciel client interprète le code HTML retourné à l'étape précédente et applique les modifications correspondantes à la copie locale des fichiers du site. Il le fait soit en supprimant les liens (pages supprimées) ou en remplaçant les liens (pages déplacées) et ce après validation par l'administrateur.
L'administrateur travaille sur la copie locale de son site supprimant, ajoutant, déplaçant ou modifiant le contenu de ses pages.
L'administrateur met à jour son site Web proprement dit connecté en permanence à I NTERNET en copiant (via FTP par exemple) la copie locale des fichiers vers son site.
L'administrateur utilise le logiciel client pour signaler tous changements appliqués à son site.
Le logiciel détecte les pages ajoutées, supprimées, déplacées ou modifiées par comparaison du répertoire "Delta" (Δ) et de la copie locale du site.
Ces informations peuvent être vérifiées et modifiées par l'administrateur.
Le logiciel client se connecte au serveur de lien 9 en HTTP pour signaler les modifications. Le serveur de liens vérifie avantageusement la validité des informations transmises à l'étape précédente en se connectant en HTTP via l'INTERN ET au site Web de l'administrateur. Les pages modifiées ou ajoutées sont parcourues pour déterminer leurs liens externes. Pour les pages déplacées, on vérifie que l'ancienne page n'existe plus et que la nouvelle existe. Pour les pages supprimées, on vérifie que l'ancienne page n'existe plus.
Cette étape a pour but d'éviter la falsification d'information et les risques de notifications fausses malveillantes.
Les informations étant validées, on parcourt la base de liens et notifie par courrier électronique les sites concernés 1, 11, 13.
En variante, l'administrateur peut s'enregistrer directement à partir de site Web proprement dit connecté en permanence à l'INTERN ET et y recevoir les notifications.
Toutefois, il est bien entendu que le serveur 9 peut également effectuer la détection des déplacements et la suppression de pages sur des serveurs non enregistré sur le serveur de liens 9. Dans cette 15
procédure, on suppose que la cohérence interne de chaque site Web est correctement assuré, c'est-à-dire que les liens internes sont mis à jour en cas de déplacement d'une page interne au site Web.
On parcourt le site Web jusqu'à trouver un lien interne vers la page pointée par le lien externe que l'on est susceptible de vouloir rectifier par la suite. On mémorise l'adresse de la page contenant ce lien interne et le libellé du lien.
Lorsque la page pointée n'existe plus (erreur HTTP 404) on se connecte à la page contenant le lien interne et détermine la nouvelle adresse pointée par ce lien. Le lien interne ayant logiquement déjà été mis à jour par l'administrateur du site, on obtient ainsi la nouvelle adresse de la page résolvant de ce fait le lien externe. L'adresse pointée par le lien interne rectifié est notifiée comme lien externe corrigé aux pages d'autres serveurs Web qui comportent un lien externe égale à l'ancien lien interne. La présente invention s'applique à tout système informatique comportant des liens, notamment externes, tels que système de gestion documentaire, réseau local, messagerie.
La présente invention s'applique principalement aux pages comportant des liens sur le World Wide Web.

Claims

16REVENDICATIONS
1. Système informatique comprenant des moyens de stockage de données mémorisant des liens et/ou raccourcis vers des pages d'affichage, des moyens d'identification automatiques des liens ou raccourcis mémorisés, des moyens d'élaboration et de stockage automatiques d'une liste de couples (emplacement du lien (1.1.), lien (15.3, 15.4, 15.5)), et des moyens de mise à disposition de cette liste pour permettre, en cas de changement de l'adresse d'une page (3.1 , 3.2, 5.3) pointée par un lien (15.3, 15.4, 15.5), de notifier ce changement en vue de la correction du lien (15.3', 15.4', 15.5') correspondant et comportant en outre des moyens de transmission de la liste de couples (emplacement du lien (1.1), lien (15.3, 15.4, 15.5)) vers un serveur (9) de lien recevant des listes de couples d'une pluralité desdits systèmes informatiques.
2. Système selon la revendication 1, caractérisé en ce que ledit système est un serveur sur réseau, notamment un serveur sur
INTERNET, de préférence un serveur web (1) et en ce que les moyens d'identification des liens comportent des moyens de lecture du code des pages d'affichage et des moyens d'extraction des liens externes des pages d'affichage (1.1).
3. Système selon la revendication 2, caractérisé en ce que les pages d'affichage sont décrites dans le langage HTML ou XML.
4. Système informatique selon la revendication 1, caractérisé en ce que ledit système est un poste (13) de consultation en ligne de sites web (1, 3, 5) et en ce qu'il comporte des moyens de mémorisation de raccourcis (15.6) vers des sites favoris ou vers des pages favorites.
5. Serveur de liens caractérisé en ce qu'il comporte des moyens d'élaboration d'une liste de liens et/ou des raccourcis pointant vers des pages du World Wide Web hébergés sur une pluralité de systèmes informatiques hébergeant des pages, des moyens de détermination de changements d'adresses des pages pointées (3.1 , 3.2, 5.3) et des moyens pour notifier à un système informatique (1, 13) hébergeant le support du lien ou du raccourci les changements d'adresses de la page pointée.
6. Serveur de liens, caractérisé en ce qu'il comporte des moyens de réception de notification des listes de couples [emplacements
(1.1), lien (15.3, 15.4, 15.5)] transmises par un système informatique selon 17
la revendication 4 ou 5 et des moyens pour notifier à un système informatique (1 , 13) hébergeant le support du lien ou du raccourci les changements d'adresses de la page pointée.
7. Serveur selon la revendication 5 ou 6, caractérisé en ce qu'il comporte des moyens de consultation de pages d'affichage publiées sur le web (1.1), des moyens d'extraction des liens externes incorporés dans le code desdites pages, des moyens d'élaboration et de stockage d'une liste de couple page d'origine (1.1), lien (15.3, 3.2 ; 15.4, 3.1 ; 15.5, 5.3), ainsi que des moyens d'élaboration d'une liste des pages comportant des liens vers chaque page traitée.
8. Serveur web selon la revendication 5, 6 ou 7, caractérisé en ce qu'il comporte en outre des moyens de notification de changements d'adresses des pages web (3.1 , 3.2, 5.3).
9. Serveur selon la revendication 6, 7 ou 8, caractérisé en ce qu'il comporte des moyens de consultation de pages web, des moyens d'identification de pages web, des moyens de stockage de couples (identification d'un page web, son adresse sur le web) et des moyens de comparaison des adresses des pages web antérieures avec des adresses des pages web actuelles pour en déduire une liste de l'identification de pages web ayant changé d'adresse accompagnées de leur adresse ainsi que des pages web ayant disparu.
10. Procédé de réparation de l iens cassés sur l'I NTERN ET, notamment sur le World Wide Web caractérisé en ce qu'il comporte les étapes consistant à : - recevoir les notifications des liens ou raccourcis pointant vers des pages web ;
- recevoir les notifications des modifications d'adresses des pages web ;
- élaborer une liste de pages web pointant vers des pages ayant changé d'adresse ;
- notifier au système informatique hébergeant les liens pointant vers des pages web dont l'adresse a été modifiée, le changement d'adresse des pages web pointées.
11. Procédé de réparation de liens ou raccourcis cassés caractérisé en ce qu'il comporte les étapes consistant à : 18
- consulter les pages web accessibles sur le world wide web et en extraire les liens externes pointant vers des pages web hébergées sur d'autres sites ;
- mémoriser les adresses des diverses pages web pointées par des l iens ou des raccourcis ; élaborer une liste de pages web pointant vers des pages ayant changé d'adresse , notifier au système informatique hébergeant les liens pointant vers des pages web dont l'adresse a été modifiée, le changement d'adresse des pages web pointées.
12. Procédé selon la revendication 1 1 , caractérisé en ce qu'i l comporte, en outre, une étape de modification de liens pointant vers des pages web dont l'adresse a été modifiée vers les adresses correspondantes notifiées 13. Procédé selon la revendication 10 ou 12, caractérisé en ce qu'il comporte, en outre, une étape de notification à un serveur hébergeant des liens pointant vers des pages dont l'adresse a été modifiée, isolé par des moyens de restriction et d'autorisation d'accès, notamment à un serveur I NTRAN ET. 14 Procédé selon la revendication 10, 1 1 , 12 ou 13, caractérisé en ce qu'il comporte les étapes consistant à : mémoriser un lien externe à protéger ;
- rechercher sur le serveur Web hébergeant la page pointée par ce l ien des pages comportant un l ien interne vers la page pointée ; - mémoriser au moins un emplacement du lien i nterne associé à ce lien ;
- en cas de disparition de la page pointée se connecter au serveur Web et lire le nouveau lien remplaçant de l ien vers la page pointée ; et uti liser ou notifier le nouveau lien interne comme le nouveau l ien correct pointant vers la page pointée par l'ancien lien cassé.
PCT/FR1999/000861 1998-04-15 1999-04-13 Systeme informatique de gestion des liens et procede mettant en oeuvre ledit systeme WO1999053669A1 (fr)

Priority Applications (5)

Application Number Priority Date Filing Date Title
EP99913397A EP1072141A1 (fr) 1998-04-15 1999-04-13 Systeme informatique de gestion des liens et procede mettant en oeuvre ledit systeme
IL13894599A IL138945A0 (en) 1998-04-15 1999-04-13 Computer system for managing links and method using the said system
AU31535/99A AU3153599A (en) 1998-04-15 1999-04-13 Computer system for managing links and method using said system
CA002328082A CA2328082A1 (fr) 1998-04-15 1999-04-13 Systeme informatique de gestion des liens et procede mettant en oeuvre ledit systeme
JP2000544111A JP2002511627A (ja) 1998-04-15 1999-04-13 リンクを管理するためのコンピュータシステムとそのシステムを実行する方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR9804660A FR2777725B1 (fr) 1998-04-15 1998-04-15 Systeme informatique de gestion des liens et procede mettant en oeuvre ledit systeme
FR98/04660 1998-04-15

Publications (1)

Publication Number Publication Date
WO1999053669A1 true WO1999053669A1 (fr) 1999-10-21

Family

ID=9525238

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR1999/000861 WO1999053669A1 (fr) 1998-04-15 1999-04-13 Systeme informatique de gestion des liens et procede mettant en oeuvre ledit systeme

Country Status (9)

Country Link
EP (1) EP1072141A1 (fr)
JP (1) JP2002511627A (fr)
AU (1) AU3153599A (fr)
CA (1) CA2328082A1 (fr)
FR (1) FR2777725B1 (fr)
IL (1) IL138945A0 (fr)
RU (1) RU2000128642A (fr)
WO (1) WO1999053669A1 (fr)
ZA (1) ZA200005364B (fr)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002095624A2 (fr) * 2001-05-22 2002-11-28 The Parity Bit Ltd. Procede d'organisation d'une recherche sur internet, selon les activites utiles d'utilisateurs
GB2382433A (en) * 2001-10-26 2003-05-28 Hewlett Packard Co Notifying registered users of changes to hyperlinks
JP2003530627A (ja) * 2000-01-28 2003-10-14 カマース ワン オペレイションズ インコーポレイテッド 電子商取引システムにおいて文書を解釈するためのスキーマを検索する方法
US10719568B2 (en) 2017-11-28 2020-07-21 International Business Machines Corporation Fixing embedded richtext links in copied related assets

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006236084A (ja) * 2005-02-25 2006-09-07 Ricoh Co Ltd データベース装置
US8176166B2 (en) 2007-04-19 2012-05-08 International Business Machines Corporation Autonomic management of uniform resource identifiers in uniform resource identifier bookmark lists

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5805824A (en) * 1996-02-28 1998-09-08 Hyper-G Software Forchungs-Und Entwicklungsgesellschaft M.B.H. Method of propagating data through a distributed information system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5805824A (en) * 1996-02-28 1998-09-08 Hyper-G Software Forchungs-Und Entwicklungsgesellschaft M.B.H. Method of propagating data through a distributed information system

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
INGHAM D ET AL: "Fixing the @?Broken-Link@? problem: the W3Objects approach", COMPUTER NETWORKS AND ISDN SYSTEMS, vol. 28, no. 11, May 1996 (1996-05-01), pages 1255-1268, XP004018225 *
PITKOW J E ET AL: "Supporting the Web: A distributed hyperlink database system", COMPUTER NETWORKS AND ISDN SYSTEMS, vol. 28, no. 11, May 1996 (1996-05-01), pages 981-991, XP004018201 *
SUSAKI S ET AL: "Missing the 404: link integrity on the World Wide Web", COMPUTER NETWORKS AND ISDN SYSTEMS, vol. 30, no. 1-7, April 1998 (1998-04-01), pages 761-762, XP004121482 *
THISTLEWAITE P: "Automatic construction and management of large open webs", INFORMATION PROCESSING & MANAGEMENT (INCORPORATING INFORMATION TECHNOLOGY), vol. 33, no. 2, March 1997 (1997-03-01), pages 161-173, XP004091793 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003530627A (ja) * 2000-01-28 2003-10-14 カマース ワン オペレイションズ インコーポレイテッド 電子商取引システムにおいて文書を解釈するためのスキーマを検索する方法
WO2002095624A2 (fr) * 2001-05-22 2002-11-28 The Parity Bit Ltd. Procede d'organisation d'une recherche sur internet, selon les activites utiles d'utilisateurs
WO2002095624A3 (fr) * 2001-05-22 2003-10-16 Parity Bit Ltd Procede d'organisation d'une recherche sur internet, selon les activites utiles d'utilisateurs
GB2382433A (en) * 2001-10-26 2003-05-28 Hewlett Packard Co Notifying registered users of changes to hyperlinks
GB2382433B (en) * 2001-10-26 2005-11-30 Hewlett Packard Co Method to preserve web page links using registration and notification
US10719568B2 (en) 2017-11-28 2020-07-21 International Business Machines Corporation Fixing embedded richtext links in copied related assets

Also Published As

Publication number Publication date
AU3153599A (en) 1999-11-01
RU2000128642A (ru) 2002-10-27
JP2002511627A (ja) 2002-04-16
ZA200005364B (en) 2002-02-25
FR2777725B1 (fr) 2003-02-21
FR2777725A1 (fr) 1999-10-22
IL138945A0 (en) 2001-11-25
EP1072141A1 (fr) 2001-01-31
CA2328082A1 (fr) 1999-10-21

Similar Documents

Publication Publication Date Title
US6415294B1 (en) Electronic file retrieval method and system
US8683311B2 (en) Generating structured data objects from unstructured web pages
US8005806B2 (en) System and method for information retrieval using context information
JP4122733B2 (ja) ウェブページ情報フォーマッティングプログラム
US20080115086A1 (en) System and method for recognizing and storing information and associated context
WO2007063547A2 (fr) Systeme et procede d&#39;adjonction d&#39;informations de securite a des resultats de moteur de recherche
EP1328874A1 (fr) Incorporation de donnees client dans des pages hypertexte
US20080140777A1 (en) Selective mirrored site accesses from a communication
WO2007146198A2 (fr) Système et procédé permettant de produire des historiques sécurisés de sites web de tiers
US6952723B1 (en) Method and system for correcting invalid hyperlink address within a public network
CA2437273C (fr) Canal reseau permettant d&#39;acceder a des services de transmission de donnees
JP5049172B2 (ja) リバースプロキシシステム
US20090049146A1 (en) System and method for data transmission
CN101127068B (zh) 信息处理系统和信息处理方法
WO1999053669A1 (fr) Systeme informatique de gestion des liens et procede mettant en oeuvre ledit systeme
JP4415594B2 (ja) サーバ装置、サーバ装置用プログラムおよびサーバ装置の情報処理方法
WO2006035201A1 (fr) Visualisation sure de pages web
JP5026130B2 (ja) メール管理方法およびメール管理システム並びにメール管理プログラム
US6829767B2 (en) Method to control alternative application operation based on results of an ordered application execution attempt
US20030009462A1 (en) Computer-readable designators and methods and systems of using the same
JP2005122556A (ja) 情報評価システム
JP2005148828A (ja) ページアドレス変更通知方法
Neser Understanding File Transfer Protocol
Hawken A Web Notebook: A First Course in Using the Internet and Web Design
KR20040069296A (ko) 웹 페이지 연동 방법 및 시스템

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AL AM AT AU AZ BA BB BG BR BY CA CH CN CU CZ DE DK EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MD MG MK MN MW MX NO NZ PL PT RO RU SD SE SG SI SK SL TJ TM TR TT UA UG US UZ VN YU ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW SD SL SZ UG ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE BF BJ CF CG CI CM GA GN GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
WWE Wipo information: entry into national phase

Ref document number: 200005364

Country of ref document: ZA

WWE Wipo information: entry into national phase

Ref document number: 31535/99

Country of ref document: AU

WWE Wipo information: entry into national phase

Ref document number: 507347

Country of ref document: NZ

ENP Entry into the national phase

Ref document number: 2328082

Country of ref document: CA

Ref document number: 2328082

Country of ref document: CA

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 138945

Country of ref document: IL

WWE Wipo information: entry into national phase

Ref document number: 1999913397

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: KR

WWE Wipo information: entry into national phase

Ref document number: IN/PCT/2000/642/CHE

Country of ref document: IN

WWP Wipo information: published in national office

Ref document number: 1999913397

Country of ref document: EP

REG Reference to national code

Ref country code: DE

Ref legal event code: 8642

WWW Wipo information: withdrawn in national office

Ref document number: 1999913397

Country of ref document: EP