spacer

Technologies Internationales 144  >>  15/05/2008

Tous les articles parus >>

spacer

Internet

Serparchive, Silobreaker et Textmap : trois outils de veille innovants

http://www.bulletins-electroniques.com/ti/144_01.htm

Copyright © ADIT - Tous droits réservés

La surveillance du web, de ses sources d'information et de l'actualité d'un domaine est une stratégie à part entière dans un mécanisme de veille. De nombreux outils sont disponible en ligne : trois d'entre eux, assez récents et aux fonctionnalités parfois injustement méconnues, sont présentés ici.

Article rédigé par Olivier Andrieu et Christophe Deschamps.

Focus :

Outils de visualisation de Silobreaker

- Article volume : présente sous la forme d'un histogramme de fréquence les volumes d'articles consacrés au mot-clé choisi (exemple : 1968 pour le mot-clé google). Les couleurs qualifient les différents types de sources (presse, blogs, audio, etc.). Il est possible de zoomer sur certaines périodes en effectuant un click and drag.
- Network : cartographie sous la forme d'un réseau les relations détectées entre les différentes entités extraites de l'ensemble des articles composant la page (personnalités, pays, entreprises...).
- Hotspot : représente sur une carte du monde les lieux évoqués dans les articles.
- Media Attention Trends permet de comparer les occurrences de mots-clés relatifs à votre requête principale, c'est-à-dire ce sur quoi se porte l'attention des médias. Ainsi vous pouvez choisir de comparer entre eux des noms de personnes, d'organisations, d'entreprises, de villes, de pays ainsi que les mots-clés les plus cités dans les phrases-clés.

Traitements graphiques et statistiques du corpus d'actualités

- Articles referencing France : le premier et le plus simple puisqu'il s'agit de la liste des articles dans lesquels le mot France est présent.
- Relational Network : permet de visualiser les entités de même nature (pays) qui sont le plus associées à l'entité-cible dans l'actualité du jour.
- Popularity time serie : il s'agit de deux graphiques permettant de suivre les thématiques dans lesquelles l'entité est présente dans le temps (News, Business, Entertainment, Sports...) afin de voir où elle apparaît le plus souvent.
- Sentiment analysis : ce graphique permet de suivre le regard positif ou négatif porté sur l'entité dans l'actualité à travers les semaines. La courbe rouge mesure cette côte d'amour tandis que la bleue indique si elle laisse ou non indifférente.
- Juxtapositions : cette fonctionnalité présente les entités les plus souvent associées à l'entité-cible (cooccurrences) tous types confondus.
- Heatmap : une carte des Etats-Unis indique quelles zones du pays (et donc quels journaux régionaux) citent l'entité-cible (calcul de fréquence) depuis 2004.

Pour recevoir les prochaines parutions, abonnez-vous à "Technologies Internationales" :

Abonnement par email (gratuit) >>

Abonnement version papier >>

Tout savoir sur
Technologies Internationales
 >>

Abonnés version papier :

Téléchargez ici la version pdf >>

Transmettre cet article
par email
 >>

Recommander ce site
à un collègue / ami
 >>

Les articles de "Technologies Internationales" classés par thèmes :

FAQ / foire aux questions >>

Conditions d'utilisation >>

Flux RSS >>


Le Web regorge d'outils de veille passionnants et innovants... depuis la surveillance de nouvelles sources d'information via le monitoring des résultats des moteurs de recherche (SerpArchive) jusqu'à l'analyse et l'agrégation de l'actualité mondiale (Silobreaker, Textmap), nous vous proposons ici trois outils qui ont toutes les chances de vite devenir des incontournables de la veille sur une thématique donnée...


SerpArchive : un outil de monitoring redoutable

SerpArchive (pour Search Engine Results Page Archive) est un service qui, utilisé "basiquement" (car nous verrons plus loin qu'il offre des possibilités bien plus avancées...), a pour objectif de vous permettre de surveiller l'évolution du nombre de résultats d'une ou plusieurs requêtes dans les principaux moteurs de recherche du Web, à savoir Google, Live, Yahoo! et... le russe Yandex. SerpArchive est en effet un outil qui nous vient du froid, de Russie plus précisément.


[Note de la rédaction après bouclage du présent article : SerpArchive semble avoir actuellement des soucis techniques, c'est pourquoi il se peut que vous rencontriez des difficultés pour utiliser ou tester ses outils ; nous n'avons aucune information concernant la date de sa remise en service ; nous vous invitons alors à tester en priorité les autres outils de veilles présentés plus bas. Merci pour votre compréhension]

Comme un exemple vaut toujours mieux qu'un long discours, supposons que nous souhaitions mettre sous surveillance le domaine d'activité que constitue l'intelligence économique. Dans un premier temps nous allons créer un nouveau projet dans la Project List. Nous l'appellerons "Surveillance IE". Nous nous rendons ensuite dans la fenêtre permettant d'ajouter des mots-clés et entrons l'expression "intelligence économique" (avec les guillemets) puis cliquons sur le bouton Save. L'expression apparaît alors aussitôt au milieu de la page. On y voit le nombre de résultats qu'elle a fourni par jour dans Google pour la dernière semaine. Si l'on veut obtenir des résultats similaires dans Live et Yahoo!, il suffit de sélectionner l'expression puis de choisir dans le menu déroulant Copy to MSN ou Copy to Yahoo!. Cette opération n'a besoin d'être réalisée qu'une seule fois. Nous pouvons aussi rajouter dans notre dossier les expressions "veille" et "influence", etc.

Entrons maintenant dans le détail des résultats. Si nous cliquons sur les 1.660.000 résultats renvoyés le jour où ces lignes étaient écrites pour l'expression "intelligence économique" nous n'obtenons pas l'ensemble de ceux-ci mais uniquement les 100 premiers. En face de chacun d'eux un petit tableau nous montre les évolutions de position constatées durant les cinq derniers jours. A côté de chaque résultat, l'icône PR permet de mettre sous surveillance son PageRank en un clic. Placé juste à côté de celle-ci un système d'étoile permet de noter les résultats intéressants, mais surtout de les indiquer au service comme favoris (bookmarks), un détail qui a son importance. En effet, c'est aussi à ce niveau que vous trouverez des options de filtrage particulièrement efficaces. Vous disposez ici d'un menu déroulant qui vous permet d'afficher au choix : tous les liens ; vos liens favoris (ceux que vous venez de marquer avec des étoiles) ; seulement les nouveaux liens depuis le jour précédent (sur les 100 pris en compte) ; seulement les anciens liens. La deuxième option vous permet donc, par exemple, d'effectuer un filtrage par concurrents alors que la troisième mettra en évidence les nouveaux entrants.

SerpArchive ne permet pas d'interroger des mots-clés pour des pages web précises afin d'en suivre leur positionnement. Il donne "seulement" les 100 premières pages et l'on peut considérer que c'est une faiblesse de sa part. Tout comme on peut considérer que, tant qu'il n'est pas dans les cent premiers, la surveillance d'un site a une importance toute relative... SerpArchive peut aussi être utilisé tout simplement pour surveiller l'apparition de nouvelles pages en fonction de requêtes spécifiques. Sa gestion fine de la chronologie peut d'ailleurs le faire préférer à un logiciel de monitoring classique de type Copernic Agent. Il n'en reste pas moins vrai que cet outil propose de nombreuses fonctionnalités qui permettent notamment de voir arriver de nouvelles sources d'information dans un domaine donné de façon très efficace.

Silobreaker : une recherche à 360 degrés


Silobreaker est un service d'agrégation d'actualités en phase bêta comparable à Google News ou Yahoo! News. Ou plutôt, il est incomparablement plus puissant et plus intéressant en termes de fonctionnalités que ses deux concurrents, ne serait-ce que par la quantité de sources ouvertes traitées puisqu'il en intègre plus de 9.000 en anglais, soit le double de Google News US.

Vous pouvez utiliser cet outil comme n'importe quel portail généraliste, c'est-à-dire en choisissant d'explorer les nombreuses catégories qu'il propose, au total environ 70 classées dans 3 catégories principales : Global Issue, Science & Technology, Business, ainsi qu'une quatrième proposant un classement de l'information par pays. Vous pouvez également choisir de lancer une requête dans le moteur de recherche interne de Silobreaker qui vous amènera sur une page de résultats parfaitement structurée. Silobreaker traite l'actualité en temps réel et les pages qu'il propose, que ce soit en naviguant ou en lançant une recherche, sont des pages générées dynamiquement.

Pour arriver à ce résultat, il utilise une plateforme technique capable de traiter des contenus structurés, non-structurés, numériques, audio / vidéo, mais aussi des métadonnées, des thésaurus et des taxonomies. Cette masse de données passe ensuite par une quadruple "moulinette" : indexation ; extraction d'entités (reconnaissance de noms de personne, d'organisations, d'entreprises) ; analyse des relations entre les entités ; catégorisation des résultats. Le résultat est la génération en temps réel d'une page d'accueil propre à chaque mot-clé tapé et appelée "Recherche à 360°" (360° search). Les résultats de recherche sont présentés à l'intérieur des trois catégories principales déjà évoquées. Les actualités y sont classées dans l'ordre antichronologique et "dédoublonnées" comme sur Google News.

Les outils de visualisation sont au nombre de quatre. Lorsque vous les lancez en mode plein écran (d'un simple clic) ils se dotent de fonctionnalités complémentaires de tri et de filtrage (voir "Outils de visualisation de Silobreaker" ci-contre). La catégorisation automatique, ou clusterisation, se base sur les entités extraites ainsi que sur des phrases-clés et des thèmes-clés identifiés automatiquement par le système.

Si maintenant vous souhaitez affiner votre recherche et trouver dans ces 1968 résultats ceux où la NASA est citée, il vous suffit d'entrer ce nom dans la barre de recherche et de cliquer sur Filter plutôt que sur Search. Vous pouvez ajouter ainsi autant de filtres que vous voulez. Enfin, une recherche avancée vous permet de choisir les types de contenus dans lesquels vous voulez lancer une recherche (News, blogs, audio...), mais aussi de la limiter aux seules sources qui vous intéressent. Vous pouvez en outre la restreindre à une période donnée. Sachez également que chaque requête, et donc chaque page nouvelle que vous générez et personnalisez (filtres), dispose de son propre fil RSS qui vous permet de suivre l'actualité via un agrégateur.

Pour les veilleurs et documentalistes, Silobreaker est un service d'une qualité exceptionnelle, tant au niveau de la quantité de sources intégrées qu'au niveau des fonctionnalités proposées. Son seul défaut est qu'il ne traite pour l'instant que l'anglais. Ceci mis à part, il serait vraiment dommage de s'en priver, d'autant qu'il est Entièrement gratuit ; mais pour combien de temps ?

Textmap : un service basé sur les entités nommées


Les entités nommées désignent l'ensemble des noms de personnes, de lieux, d'organismes ou d'institutions contenus dans un texte ainsi que les dates et autres données chiffrées. Les identifier et les extraire pour multiplier les points d'entrée vers un même texte, mais aussi additionner les occurences pour en faire émerger des tendances peut donc s'avérer particulièrement utile en notre époque d'"infobésité" galopante. C'est sur ce principe qu'a été développé le service de recherche d'actualités TextMap et ses dérivés : TextMed, pour l'information médicale, TextBlg pour les blogs et TextBiz pour l'actualité économique.

La page d'accueil de TextMap (dont la devise est "Monitorer le monde pour que vous n'ayez pas à le faire" - tout un programme...) présente par défaut les entités les plus visibles du moment classées dans huit catégories : personnes, villes, pays, compagnie, université, médicament, site web et entités citées dans les titres de l'actualité. Si vous ne trouvez pas celle que vous cherchez, il suffit de cliquer sur More pour obtenir une liste plus complète (TextMap en reconnaît plus d'un million !). Autre possibilité, utiliser la barre de recherche pour lancer votre requête. Pour information TextMap ne travaille que sur l'actualité provenant de sources US (plusieurs centaines de journaux en ligne). C'est donc un parfait point de départ pour chercher à comprendre le point de vue américain sur l'information internationale. Pour notre exemple, nous avons d'ailleurs choisi d'examiner le traitement réservé à l'entité France. Une fois cliqué sur ce mot-clé vous arrivez sur une page dynamique qui lui est consacrée et vous propose plusieurs modes de traitements graphiques et statistiques du corpus d'actualités le concernant (voir "Traitements graphiques et statistiques du corpus d'actualités" ci-contre).

En revenant sur la page d'accueil on peut trouver d'autres fonctionnalités intéressantes qui redirigent vers des pages dynamiques spécifiques telles que : Daily sentiment report (page présentant la "cote d'amour" des entités marquantes de l'actualité et permet d'en voir émerger de nouvelles) ; Daily sentiment map (même chose que ci-dessus mais projeté sur une carte des Etats-Unis) ; Daily heatmap report (page présentant une heatmap [voir encadré] pour chaque entité populaire).

TextMap, on l'a vu, est donc beaucoup plus qu'un simple service d'agrégation d'actualités, il s'agit d'un véritable outil de text-mining en ligne qui, une fois maîtrisé, permet de surveiller l'information de manière extrêmement pointue. Il n'est d'ailleurs pas sans nous rappeler Silobreaker (voir précédemment) ou encore Inform désormais privé. Plus globalement de tels services sont la démonstration même de ce que le traitement statistique de l'information textuelle est en mesure d'apporter à tous ceux pour qui elle est la matière première.

spacer

spacer

Pour en savoir plus :

- Serparchive : http://www.serparchive.org
- Silobreaker : http://beta.silobreaker.com
- TextMap : http://www.textmap.com
- Inform : http://inform.com

spacer

spacer

Origine : Technologies Internationales 144 (15/05/2008 ) - ADIT - http://www.bulletins-electroniques.com/ti/144_01.htm
spacer

spacer

[  plan du site  |  données personnelles & politique de confidentialité  |  limites de responsabilité  |  faq  |  nous contacter  ]

spacer

[  page d'accueil  |  découvrir  |  consulter  |  recevoir  |  rechercher  |  utiliser  |  s'exprimer  ]

spacer

bulletins-electroniques.com tous droits réservés   -   votre contact : François Moille

4444444007 9999999999 6666666000 1010101010 1010101020