Il est estimé que seulement 5% du contenu web est indexé. Memex a été conçu pour explorer la partie inconnue du web, le web profond.
Certains estiment que les principaux moteurs de recherche, Google, Microsoft et Yahoo, ne donnent accès qu’à environ 5% du contenu du web. Qu’en est-il du reste, de toute cette partie inconnue que l’on nomme communément « deep web » (web profond) ?
Ce web profond est surtout constitué de pages non indexées par les moteurs de recherche classique, ou de pages protégées par des logiciels spécifiques, Tor par exemple. Ces pages sont le terrain de jeu de différentes organisations criminelles, mais aussi de Chris White, un ingénieur du DARPA, un laboratoire de recherche de l’armée américaine.
Le DARPA a mis au point Memex, contraction de « mémoire » et « index », un programme capable de mener des recherches thématiques dans des pages du web profond. Fonctionnant comme une surcouche d’un moteur de recherche classique, le logiciel récupère bien plus d’informations que Google ou Bing pour établir des liens.
Développé en tant qu’outil pour le département américain de Défense, Memex a déjà été testé pour surveiller les réseaux de prostitution lors du Super Bowl. Il a été capable de repérer de nombreuses pages cachées faisant la promotion de services sexuels, puis de récupérer des données permettant d’identifier le lieu de leur publication: géolocalisation d’un appareil, adresse IP, numéro de téléphone, adresse, etc., des données qui ont ensuite été compilées et recoupées pour être associées aux photos de femmes figurant sur ces pages. Au final, Memex pouvait repérer les mouvements de différentes prostituées et faciliter le travail de la police.
« Il s’agit d’un bel exemple de la manière dont le Big Data peut aider à protéger les personnes vulnérables », a salué le président Barack Obama dans le cadre de son rapport sur le Big Data.
Chris White précise que le but de Memex n’est pas de récupérer des informations qui n’ont pas pour but d’être publiques, typiquement une page Facebook privée, ou de désanonymiser des services anonymes. « La plupart des personnes qui utilisent Internet le font pour de bonnes raisons. Il existe aussi des parasites et nous voulons les empêcher d’utiliser Internet contre nous », souligne Dan Kaufman, du DARPA.
Pour le moment conçu pour aider les enquêtes de police, Memex pourrait peut-être un jour aider les recherches des particuliers. Il est tout de même peu probable que sa logique soit un jour adoptée par Google, Bing ou Yahoo qui privilégient avant tout les pages générant du trafic qui ont un fort potentiel de revenus publicitaires.
C’est vraiment ce que les internautes ont besoin ! Un moteur de recherche avec un réseau libre et non censuré.