Evitar que se descarguen tu web y bloquear otros crawlers desde robots.txt
Hace unos días escribía un post sobre como Descargar un sitio web completo desde consola con linux.
La solución para evitar a este tipo de problema, que descarguen tu web mediante comandos linux es muy sencilla. Se ha tomado wget como un crawler (un rastreador) y se puede bloquear desde el archivo robots.txt que es aconsejable tener en el directorio raíz de tu desarrollo. De manera que para evitar que usen wget de manera recursiva en tu site y lo acaben descargando añadir la siguiente linea en robots.txt
1
2
User-agent: wget
Disallow: /
Hay una serie de crawlers, rastreadores o arañas conocidas que se dedican a entrar en tu site y rastrearlo para diferentes motivos, hacer spam, robar contenido, etc..
Es muy aconsejable tener una lista conocida de todos los crawlers maliciosos y bloquearlos directamente.
A continuación añado una lista de crawlers web que he bloqueado, sin piedad! Son los que conozco hasta el momento seguro que hay mas.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
#
# robots.txt
#
User-agent: Orthogaffe
Disallow: /
User-agent: UbiCrawler
Disallow: /
User-agent: DOC
Disallow: /
User-agent: Zao
Disallow: /
User-agent: sitecheck.internetseer.com
Disallow: /
User-agent: Zealbot
Disallow: /
User-agent: MSIECrawler
Disallow: /
User-agent: SiteSnagger
Disallow: /
User-agent: WebStripper
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: Fetch
Disallow: /
User-agent: Offline Explorer
Disallow: /
User-agent: Teleport
Disallow: /
User-agent: TeleportPro
Disallow: /
User-agent: WebZIP
Disallow: /
User-agent: linko
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: Xenu
Disallow: /
User-agent: larbin
Disallow: /
User-agent: libwww
Disallow: /
User-agent: ZyBORG
Disallow: /
User-agent: Download Ninja
Disallow: /
User-agent: wget
Disallow: /
User-agent: grub-client
Disallow: /
User-agent: k2spider
Disallow: /
User-agent: NPBot
Disallow: /
User-agent: WebReaper
Disallow: /