Evitar que se descarguen tu web y bloquear otros crawlers desde robots.txt
Hace unos días escribía un post sobre como Descargar un sitio web completo desde consola con linux.
La solución para evitar a este tipo de problema, que descarguen tu web mediante comandos linux es muy sencilla.
Se ha tomado wget como un crawler (un rastreador) y se puede bloquear desde el archivo robots.txt que es aconsejable tener en el directorio raíz de tu desarrollo.
De manera que para evitar que usen wget de manera recursiva en tu site y lo acaben descargando añadir la siguiente linea en robots.txt
User-agent: wget Disallow: /
Hay una serie de crawlers, rastreadores o arañas conocidas que se dedican a entrar en tu site y rastrearlo para diferentes motivos, hacer spam, robar contenido, etc..
Es muy aconsejable tener una lista conocida de todos los crawlers maliciosos y bloquearlos directamente.
A continuación añado una lista de crawlers web que he bloqueado, sin piedad! Son los que conozco hasta el momento seguro que hay mas.
# # robots.txt # User-agent: Orthogaffe Disallow: / User-agent: UbiCrawler Disallow: / User-agent: DOC Disallow: / User-agent: Zao Disallow: / User-agent: sitecheck.internetseer.com Disallow: / User-agent: Zealbot Disallow: / User-agent: MSIECrawler Disallow: / User-agent: SiteSnagger Disallow: / User-agent: WebStripper Disallow: / User-agent: WebCopier Disallow: / User-agent: Fetch Disallow: / User-agent: Offline Explorer Disallow: / User-agent: Teleport Disallow: / User-agent: TeleportPro Disallow: / User-agent: WebZIP Disallow: / User-agent: linko Disallow: / User-agent: HTTrack Disallow: / User-agent: Microsoft.URL.Control Disallow: / User-agent: Xenu Disallow: / User-agent: larbin Disallow: / User-agent: libwww Disallow: / User-agent: ZyBORG Disallow: / User-agent: Download Ninja Disallow: / User-agent: wget Disallow: / User-agent: grub-client Disallow: / User-agent: k2spider Disallow: / User-agent: NPBot Disallow: / User-agent: WebReaper Disallow: /
Tags de búsquedas:
como prohibir descargas de un sitio web, bloquear wget descargar web, como evitar rss de mi web, evitar que descarguen contenido de mi sitio, no quiero que descarguen mi web, robotica cheat pdf
Posts Relacionados:
- cakephp funcion para bloquear ips y evitar spam En este post voy a explicar como hacer una función que bloquea ips de robots o simples usuarios spammers. Para esto mezclaremos la utilización de archivos de configuración donde iremos...
- Bloquear usuarios y bots no deseados desde .htacces El problema Que problemático es el spam, ya provenga de bots o spiders, algunos simplemente por hacer spam otros para robar contenido, o de usuarios que no dejan de molestar,...
- Análisis de SEO. Número de paginas indexadas y eliminadas Hay que tener cuidado cuando ya tienes tu página indexada y al crear una nueva aplicacion, dejas que el robot de Google indexe muchas urls de golpe esto es considerado...
- Descargar un sitio web completo desde consola con linux Como descargar un sitio web completo con linux, puf pues con un simple comando te descargar una web en un rato. Es un “hackeo” importante porque te puedes descargar su...
- Motores de navegadores web: Gecko, Trident, WebKit y otros. Un motor de navegador web (motor de renderizado) o del ingles web browser engine es software que toma contenido marcado (como HTML, XML, archivos de imágenes, etc.) e información de...

RSS Feed
Hola Pedro, por cierto tocayo jeje, quiero bloquear un post en concreto de un blog desde robots.txt, cual es la forma de incluir la url? Gracias de antemano
Buenas,
Entiendo que el post es tuyo, de tu propio dominio. Es muy sencillo tendrías que meter la url del artículo, tipo:
Muy buen post pero me queda una duda ¿luego como habilitas el acceso del resto de robots, por ejemplo google? Por ejemplo quieres que para el resto si puedan entrar pero a la vez bloquear una url, en concreto como unirías el siguiente robots.txt con tu código anterior:
User-Agent: *
Allow: /
Allow: /rss/$
Disallow: /no_indexar.php?
Sitemap: http://www.dominio.com/sitemap.xml.gz
Gracias
Primero indicas lo que bloqueas.
Sino bloqueas ningún robots, éste entrará. No hace falta que digas que el robot de google entre. Por defecto cualquier robot puede rastrear tu site.
De hecho no hace falta que pongas el Allow:/ porque como te digo cualquier crawler va a rastrear.