|
 |
Comment exploiter les ressources du Web invisible ?
|
 |
 |
| Date de publication : 11/01/2008 17:36:45 |
Le web invisible, le web caché ou encore le web profond est constitué des documents disponibles sur le web mais pas ou mal indéxés par les moteurs de recherche conventionnels tels que Google, Yahoo, Voila,….Ces documents ne sont donc pas accessibles depuis une recherche classique à partir d’un de ces moteurs de recherche.
Le web invisible est composé de ressources de plusieurs types. Il peut s’agir de bases de données gratuites ou payantes, de pages web protégées par l’utilisateur et empéchant les moteurs de parcourir leur contenu, de pages web créées dynamiquement, de pages protégées par un mot de passe, de pages web orphelines (aucun lien présent sur d’autres pages ne pointent vers elles), ou encore de pages proposant un contenu dans un format non pris en charge par les moteurs de recherche (animation Flash, vidéo, …).
Le terme de web invisible tend de plus en plus à être remplacé par celui de web profond puisqu’il s’agit plus d’un problème d’accessibilité que de visibilité.
On estime que le web profond serait 400 à 500 fois plus volumineux que le web visible, et que 95 % de son contenu serait accessible à tous. Enfin, plus de la moitié des ressources seraient rassemblées dans des bases de données spécialisées. Au-delà de la quantité d’information disponible, une des caractéristiques du web profond est qu’il est en majeure partie constitué par des sites spécialisés, dédiés à une activité, une technologie, un métier et que son contenu émane ou est validé par des professionnels, spécialistes et experts. Ce sont donc surtout sa pertinence et sa qualité qui doivent inciter les entreprises à recenser les sources d’information donnant accès au web invisible.
Si le web profond reste inaccessible aux moteurs de recherche conventionnels, d’autres technologies permettent d’y avoir accès. Des outils de veille automatisés sur le web profond sont en mesure d’interroger via une interface unique les moteurs de recherche interne des sites. Ils ont la capacité d’extraire l’ensemble des résultats d’une réquête et d’en dédoublonner les résultats. Ils offrent également la possibilité de traiter un volume d’information important.
L’entreprise va pouvoir également traiter une partie de ce travail à partir d’outils gratuits. Il va s’agir dans un premier temps d’identifier les sources d’information disponibles (outils de recherche spécialisés, répertoires horizontaux, répertoires spécialisés, bases de données interrogeables, bibliothèques en ligne et portails sectoriels), puis dans un second temps d’exploiter ces ressources avec des outils de veille traditionnels.
Pour aller plus loin, POLeN organise le mardi 19 février de 16 heures à 18 heures un atelier Pra’tic « Exploitez les ressources du web invisible ».
Inscription gratuite mais obligatoire.
Source :
POLeN
Liens :
Blog traitant les thèmes de l’Intelligence Economique : http://c.asselin.free.fr/french/invisible_web.htm
Inscription en ligne à l’atelier pra’tic :
http://www.polen-mende.com/82-agenda.html
|
|
|
|