Se conoce
como web superficial a la porción de Internet que es indexada por las
arañas de los motores de búsqueda. La parte que no es indexada se conoce como web profunda.
Las arañas
de los buscadores van recorriendo las páginas web, almacenando información que
contienen y buscando enlaces a otros sitios web para seguir actualizando sus
bases de datos. Con el tiempo acaban recorriendo todas las páginas de Internet
que tienen enlaces desde otras. Pero por distintos motivos (enlaces generados
por JavaScript y Flash, páginas protegidas con contraseña, fichero de exclusión
de robots, etc.) algunas páginas no pueden ser alcanzadas por las arañas de los
buscadores. Estas páginas forman la web profunda.
Por tanto, la web profunda es un conjunto de sitios web y
bases de datos que buscadores comunes no pueden encontrar ya que no están
indexadas. El contenido que se puede hallar dentro de la internet profunda es
muy amplio
La principal causa de la existencia de web profunda es la
imposibilidad de los motores de búsqueda (Google, Yahoo, Bing, etc.) de
encontrar o indexar gran parte de la información existente en internet. Si los
buscadores tuvieran la capacidad para acceder a toda la información entonces la
magnitud de la «internet profunda» se reduciría casi en su totalidad. No
obstante, aunque los motores de búsqueda pudieran indexar la información de la web
profunda esto no significaría que esta dejará de existir, ya que siempre
existirán las páginas privadas. Los motores de búsqueda no pueden acceder a la
información de estas páginas y solo determinados usuarios, aquellos con
contraseñas o códigos especiales, pueden hacerlo.
Existen varios motivos por los que los motores de
búsqueda no pueden indexar algunas páginas:
- Web contextual: páginas cuyo contenido varía dependiendo del contexto (por ejemplo,
la dirección IP del cliente, de las visitas anteriores, etc).
- Contenido dinámico: páginas dinámicas obtenidas como respuesta a parámetros, por
ejemplo, datos enviados a través de un formulario.
- Contenido de acceso restringido: páginas protegidas con contraseña, contenido
protegido por un Captcha, etc.
- Contenido No HTML: contenido textual en archivos multimedia, otras extensiones como
exe, rar, zip, etc.
- Software: Contenido oculto intencionadamente, que requiere un programa o
protocolo específico para poder acceder (Ejemplos: Tor, I2P)
- Páginas no enlazadas: páginas que los buscadores no tienen referencia
de su existencia, por ejemplo, páginas que no tienen enlaces desde otras
páginas.
Referencias:
https://es.wikipedia.org/wiki/Internet_profunda
https://es.wikipedia.org/wiki/Internet_superficial