Comment savoir la façon dont les moteurs de recherche, grâce à leurs spiders ou robots, indexent vos pages web ? Plusieurs outils se sont spécialisés dans cette "traque sur Internet". Voici un comparatif de six d'entre eux...
Article rédigé par Olivier Andrieu.
Pour recevoir les prochaines parutions, abonnez-vous à "Technologies Internationales" :
Les moteurs de recherche sont basés sur des robots qui viennent indexer les pages des sites web en suivant les liens qu'elles contiennent. Un certain nombre d'outils permettent d'obtenir des informations souvent très précises sur ces robots : lesquels sont venus sur votre site et quand ? Quelles pages ont-elles été visitées ? Etc. Petite revue d'effectif de six outils disponibles en ligne.
Si vous êtes propriétaire d'un site web, les robots des moteurs de recherche viennent visiter à fréquence régulière les pages qui le constituent. Bien sûr, ces statistiques de visites des crawlers de Google, Yahoo! et autres Live Search sont souvent proposées dans vos interfaces de stats standard. Mais ces statistiques sont le plus souvent très sommaires, trop imprécises pour obtenir des informations réellement exploitables. Nous n'évoquerons donc pas, ici, les outils généralistes de mesure d'audience, mais plutôt ceux qui se sont spécialisés dans la détection et la mesure de l'activité des spiders sur un site web. Nous en avons identifié six que nous présentons ci-après.
A chacun de les tester et de faire son choix.
Crawltrack, un script open source
Crawltrack (http://www.crawltrack.fr ; voir encadré) est un script disponible en open source, très facile à installer : vous téléverser (upload) par FTP le contenu d'un dossier sur votre serveur puis la procédure d'installation et de configuration prend quelques minutes mais exige qu'une base MySQL soit disponible sur votre serveur. L'outil donne alors des stats précises sur les passages des robots par jour, semaine, mois ou année. D'autres stats plus classiques sont aussi accessibles, comme le nombre de pages vues, des données sur l'origine des connexions (referrers), etc. L'outil - gratuit et simple à installer - propose également, en cliquant sur un nom de robot figurant dans la liste du tableau, la liste des pages visitées par chaque spider. A tester absolument...
Robotstats, un outil complet d'origine française
RobotStats (http://www.robotstats.com ; anciennement Googlestats) est un applicatif créé par Olivier Duffez du site WebRankInfo. Il est également simple d'utilisation avec un fichier "config.php" à configurer avant de transférer le package complet sur votre site. Vous devrez ensuite insérer dans chacune de vos pages un marqueur (tag) PHP qui sera pris en compte par l'applicatif, celui-ci n'étant pas basé, comme CrawlTrack, sur la lecture des fichiers logs. Les pages de résultats contiennent, pour le robot sélectionné et pour la période définie dans le calendrier, des données relatives aux visites (nombre de fois où le robot est venu et a été détecté), pages (nombre de pages différentes visitées et visites quotidiennes (nombre moyen de visites par jour, sur la période définie). Ensuite est donnée la liste de tous les robots détectés sur la période définie. A côté de chaque robot est indiqué son nombre de visites pour la période définie. Il est également affiché un graphique donnant la répartition en pourcentage des robots. Enfin, la liste de toutes les adresses IP du robot sélectionné est affichée sur deux colonnes, avec entre crochets l'occurrence de chaque adresse IP. Il faut noter que RobotStats est un outil facilement adaptable, pour peu que votre site soit écrit en PHP.
Crawler Alert, des alertes par mail qui ne semblent plus fonctionner
Crawler Alert (http://www.crawler-alert.net) est un applicatif permettant de recevoir par courrier électronique une alerte dès qu'un spider visite votre site. Cet outil gère plusieurs moteurs : Alexa, Altavista, Ask Jeeves, Dmoz, Excite, FAST, Google, Yahoo/Inktomi, LookSmart, Lycos, MSN, Northernlight, Teoma, Wisenut. Mais, certains de ces moteurs étant assez anciens et, par ailleurs, la dernière mise à jour de ce site datant de 2003, on attendra donc assez peu de cet applicatif. Pour l'essayer, il suffit de s'inscrire en ligne, de télécharger un fichier PHP ou ASP sur le serveur et d'insérer sur la page d'accueil un lien vers ce dernier. Pas d'interface d'administration ici mais uniquement des alertes par mail lorsqu'un robot visite votre site.
Spywords, complet mais payant en version complète
SpyWords (http://www.spywords.com ; voir encadré) est un service permettant d'analyser et de suivre au jour le jour l'indexation de sites Internet par les moteurs de recherche les plus importants. Pour l'installer, il suffit de disposer d'un hébergement permettant l'utilisation d'un langage tel que PHP, ASP ou PERL pour placer un marqueur sur les pages à auditer. Le webmestre connaît, depuis l'onglet "Mes Crawlers" de Spywords, le nombre et la liste des pages uniques indexées par jour, par crawler et par site (avec leurs fréquences), le nombre et les logs d'indexations par jour, par crawler et par site (avec l'heure de passage et le code http), et la tendance de passage des robots d'un moteur de recherches sur le réseau Spywords au cours des trente derniers jours. Dans la partie "Mes Pages", le webmestre a accès à la liste des robots et leur dernier passage sur une page donnée, ainsi qu'à toutes les pages indexées par les robots qui n'ont pas de mots clés rattachés. Trois offres sont proposées, de la plus simple (gratuite) jusqu'à l'offre "Fidélité" (à partir de 25 euros HT par mois). L'offre gratuite, qui semble suffisante en termes de fonctionnalités, nécessite l'affichage d'un logo sur les pages et de publicités sur l'interface d'administration.
Spider Reporter, un outil très complet
Spider Reporter (http://fr.spider-reporter.com) propose de choisir la technique d'analyse que vous préférez, celle qui est la plus adaptée à votre site : analyse par marqueur PHP ou analyse par le fichier log. Il est le seul, à notre connaissance, à proposer ce choix. L'installation requiert simplement le téléchargement d'un ensemble de fichiers sur le site. Plusieurs rapports sont disponibles pour chaque moteur ou robot reconnu : historique général des visites et liste des adresses visitées par le robot, classées par nombre de visites, par ordre alphabétique, ou par ordre chronologique. Les statistiques fournies sont très précises et complètes. Plusieurs copies d'écran, sur le site de l'utilitaire, permettent d'en avoir un aperçu. Attention, cependant, selon ses concepteurs, "la performance de Spider Reporter est bonne sur des sites moyens ou petits, mais elle devient insatisfaisante sur des sites où les visites des robots sont très importantes."
Outils Google pour les webmestres
Il convient également de mentionner l'outil "SiteMaps" proposé par Google (http://www.google.com/webmestres/sitemaps/?hl=fr), également adopté par Yahoo! et Microsoft, un système d'indexation qui va certainement connaître un fort succès dans les prochains mois. Cet outil propose dans son interface d'administration (rubrique "Diagnostic > Vitesse d'exploration") des informations sur l'activité de Googlebot (le robot de Google) sur votre site : nombre de pages explorées, nombre de kilo-octets téléchargés, temps de téléchargement d'une page (en millisecondes)... Ces indications, bien qu'elles soient imprécises - il n'est pas indiqué quelles pages ont été indexées ni quand, seules des statistiques globales sur les 90 derniers jours sont fournies - et ne puissent se substituer aux outils présentés auparavant, revêtent cependant un certain intérêt. En outre, cet outil étant en constante évolution, il précisera peut-être dans les prochains mois les informations qu'il fournit...
A chacun ses avantages et ses inconvénients
Les outils évoqués dans ces colonnes nous ont semblé très intéressants (hormis Crawler Alert qui ne paraît plus fonctionner) et ils ont chacun leurs spécificités.
Il faut noter ici que chaque outil est très facile à installer, la phase de configuration ne prenant que quelques minutes à partir du moment où l'utilisateur dispose du couple PHP / MySQL sur son serveur (dans le cas contraire, il y a obligation de prendre en compte seulement les solutions basées sur la lecture des logs). Après installation, quelques heures suffisent pour comparer les performances respectives des outils les plus prometteurs (résultats, interfaces de consultation des statistiques fournies) : le choix d'un outil, au regard des besoins et attentes, s'en trouve facilité.
Par ailleurs, il peut s'avérer judicieux, en fonction du pays qui d'intérêt, de vérifier que les moteurs régionaux (pour la France : Voila, Dir.com, Exalead...) sont bien pris en compte. Avec cette somme d'outils, vous ne raterez rien des allées et venues des spiders sur vos pages. Une bonne façon de suivre la façon dont les moteurs de recherche "voient" (ou non) votre site... sur vos pages.