dimanche 6 septembre 2009

Web Invisible


Le Web est bel et bien la source de prédilection de la recherche d’informations. Il est aussi étendu et profond qu’un océan. On pourrait donc comparer le web à un gigantesque iceberg (en perpétuelle expansion) avec un volume de ressources immergées beaucoup plus important que les ressources de surface. Se contenter de la zone visible du web revient à ne pas explorer une zone invisible environ 500 fois plus volumineuse, comportant des milliers de milliards de ressources informationnelles de grande valeur.

La recherche d'information, la surveillance des sites internet des concurrents (et des différents acteurs) et les alertes sont désormais entrés dans les mœurs des entreprises et organisations soucieuses de la compétitivité. L'activité de veille stratégique est généralement très orientée sur le web. L'exhaustivité des informations publiées nécessite le recours à des outils de veille internet spécifiques mais également à l’exploitation du potentiel du web visible et du web invisible.

Web visible et Web invisible.

Des moteurs comme Google, Bing, MSN/Live Search, Yahoo! Search, Alta Vista ou des répertoires tels que Yahoo! Directory ne vous donnent accès qu'à une petite partie (inférieure à 10%) du web malgré le fait que ceux sont les moteurs de recherche qui permettent de retrouver les documents dans cette partie visible publique d’Internet . Ces moteurs sont aujourd’hui de véritables araignées qui sillonnent plusieurs milliards de pages sur le Web pour créer leur index avec à leur tête Google qui a récemment dépassée la barre mythique du Trillion (1 milliard de milliards) de pages web uniques.

En effet les moteurs de recherche conventionnels, dotés d’une technologie limitée (car ne pouvant pas traiter des documents, pages et sites web ou bases de données trop volumineux pour être entièrement indexés, des pages protégées par des balises qui stoppent le robot, des formats de documents inconnu,…), laissent de cote plusieurs articles scientifiques et contenus révisés ainsi que plusieurs bases de connaissance. C’est en effet là que l’on observe les trous noirs… Le Web invisible!

Le web invisible ou web profond (en anglais deep web) est la partie du web accessible en ligne, mais non indexée par des moteurs de recherche classiques généralistes. La terminologie web profond est opposée à web surfacique et il convient de le distinguer du web sombre, lequel désigne les parties du web non accessibles en ligne (le web profond est un cas particulier du web opaque qui est indexable, mais non indexé).

Si le web visible englobe la partie du Web de loin la plus utilisée et la plus fréquentée du web, l’on peut tout simplement dire que la portion du Web qui n’est pas accessible par les moteurs de recherche classiques correspond et est qualifiée de Web invisible.

Dès lors, rechercher des informations sur le web devient un apprentissage tout particulier. Et une recherche d'information efficace obéit à une démarche spécifique avec des outils appropriés.

Le web Invisible pour tous

Dans un contexte de valorisation de l’information à valeur ajoutée, plusieurs spécialistes se sont penchés sur la question des enjeux lies à l’exploitation effective du potentiel du web invisible aussi bien pour les organisations que pour les particuliers. En ce sens plusieurs méthodes, approches et stratégies ont été élaboré afin de tirer profit du web invisible, ce web là, "mal" ou non indexé par certains moteurs.

Pour les entreprises, les états et les organisations, l’enjeu est tout autre et il concerne surtout la veille stratégique et l’intelligence économique de même que leurs différentes déclinaisons. Devant ces besoins organisationnels, une économie de service se développe peu à peu pour construire une véritable industrie autour de la veille et de la recherche d’information sur le web invisible. Et pour preuve la société Digimind (acteur dans le secteur de la veille strategique et des solutions de compétitive intelligence) a publie un White Paper sur les trésors cachés du Web Invisible dans lequel Christophe Asselin, expert du domaine, dévoile les principales ressources pour identifier et exploiter les trésors cachés du Web Invisible.

Si aujourd’hui les enjeux sont réels pour les organisations, il faut simplement noter qu’il en est de même pour les autres secteurs comme la recherche et l’éducation.

Pour les chercheurs en éducation et les praticiens avides de perfectionner leur enseignement ou de mieux comprendre le processus de l’apprentissage, plusieurs solutions sont offertes pour mieux fouiller les informations scientifiques du web invisible.

Plus généralement, pour trouver les trésors cachés du Web Invisible il faut des moteurs et annuaires de recherche spécifiques au Web Invisible ainsi que des bases de données invisibles. A l’heure actuelle il existe quelques outils indexant des documents relevant du Web Invisible et différentes bases de données en ligne généralement pris en compte par ces moteurs de recherche « invisible ». Ces instruments et outils de recherche, payants ou non permettent d'interroger ces mines d'informations et de trouver des informations souvent pertinentes et difficiles d'accès.

Exploiter le potentiel du web Invisible

Aujourd’hui plusieurs acteurs veulent se positionner sur le segment de marché du web invisible considéré comme le talon d’Achille de Google qui malgré sa trillionnième page indexée l’été dernier, ignore plusieurs milliers d’autres informations telles que les informations financières, les catalogues d’achats, les horaires de vols, la recherche médicale et toutes sortes d’éléments stockés dans des bases de données qui demeurent totalement inaperçues par les moteurs de recherche. Sur cette perspective il y a Kosmix et Deepdyve.

Kosmix a développé un logiciel à même de faire correspondre les recherches d’avec les bases de données les plus susceptibles à fournir l’information pertinente, puis à retourner un commentaire du sujet tiré de plusieurs sources. Si au départ son ambition était de concurrencer Google , aujourd’hui il faut que sa stratégie s’oriente plutôt vers un repositionnement comme méta-moteur avec utilisation d’informations provenant de milliers de moteur de recherche simultanément, dont Google, YouTube et d'autres, pour trier celles qui sont vraiment pertinentes par rapport à la demande de l'utilisateur et n'afficher que les meilleures.

Mis au point par une société californienne, Deep dyve, est le nouveau moteur de recherche capable d’explorer efficacement la partie généralement inaccessible du Web, c’est un virage dans l’exploration du web invisible, avec une nouvelle logique de recherches sur web, qui, au lieu de se baser sur des mots clés comme Google, axe son exploration sur des passages entiers de texte (jusqu’à 25000 caractères). Ce nouveau moteur digne du web opaque est alors capable de traiter non seulement les mots proprement dits, mais également leur interprétation ou encore l’association à d’autres concepts, afin de trouver les articles les plus pertinents.

Exploiter pleinement les ressources du web nécessite alors l’utilisation de plusieurs outils sans se focaliser sur un seul au risque de passer à coté de l'information recherchée.


Aboubacar Sadikh ndiaye

Paru dans le magazine Nouvel Horizon

Aucun commentaire:

Enregistrer un commentaire