Dra. Aranda: Web superficial y web profunda

Se conoce como web superficial a la porción de Internet que es indexada por las arañas de los motores de búsqueda. La parte que no es indexada se conoce como web profunda.

Las arañas de los buscadores van recorriendo las páginas web, almacenando información que contienen y buscando enlaces a otros sitios web para seguir actualizando sus bases de datos. Con el tiempo acaban recorriendo todas las páginas de Internet que tienen enlaces desde otras. Pero por distintos motivos (enlaces generados por JavaScript y Flash, páginas protegidas con contraseña, fichero de exclusión de robots, etc.) algunas páginas no pueden ser alcanzadas por las arañas de los buscadores. Estas páginas forman la web profunda.

Por tanto, la web profunda es un conjunto de sitios web y bases de datos que buscadores comunes no pueden encontrar ya que no están indexadas. El contenido que se puede hallar dentro de la internet profunda es muy amplio

La principal causa de la existencia de web profunda es la imposibilidad de los motores de búsqueda (Google, Yahoo, Bing, etc.) de encontrar o indexar gran parte de la información existente en internet. Si los buscadores tuvieran la capacidad para acceder a toda la información entonces la magnitud de la «internet profunda» se reduciría casi en su totalidad. No obstante, aunque los motores de búsqueda pudieran indexar la información de la web profunda esto no significaría que esta dejará de existir, ya que siempre existirán las páginas privadas. Los motores de búsqueda no pueden acceder a la información de estas páginas y solo determinados usuarios, aquellos con contraseñas o códigos especiales, pueden hacerlo.

Existen varios motivos por los que los motores de búsqueda no pueden indexar algunas páginas:

Web contextual: páginas cuyo contenido varía dependiendo del contexto (por ejemplo, la dirección IP del cliente, de las visitas anteriores, etc).
Contenido dinámico: páginas dinámicas obtenidas como respuesta a parámetros, por ejemplo, datos enviados a través de un formulario.
Contenido de acceso restringido: páginas protegidas con contraseña, contenido protegido por un Captcha, etc.
Contenido No HTML: contenido textual en archivos multimedia, otras extensiones como exe, rar, zip, etc.
Software: Contenido oculto intencionadamente, que requiere un programa o protocolo específico para poder acceder (Ejemplos: Tor, I2P)
Páginas no enlazadas: páginas que los buscadores no tienen referencia de su existencia, por ejemplo, páginas que no tienen enlaces desde otras páginas.

Referencias:

https://es.wikipedia.org/wiki/Internet_profunda

https://es.wikipedia.org/wiki/Internet_superficial

Dra. Aranda

domingo, 6 de marzo de 2016

Web superficial y web profunda

No hay comentarios:

Publicar un comentario

Archivo del blog