Googlebot no respeta Robots.txt [cerrado]
-
19-08-2019 - |
Pregunta
Por alguna razón, cuando verifico en la Herramienta para webmasters de Google " Analizar robots.txt " para ver qué URL están bloqueadas por nuestro archivo robots.txt, no es lo que espero. Aquí hay un fragmento del principio de nuestro archivo:
Sitemap: http://[omitted]/sitemap_index.xml
User-agent: Mediapartners-Google
Disallow: /scripts
User-agent: *
Disallow: /scripts
# list of articles given by the Content group
Disallow: http://[omitted]/Living/books/book-review-not-stupid.aspx
Disallow: http://[omitted]/Living/books/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
Disallow: http://[omitted]/Living/sportsandrecreation/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
Cualquier elemento de la carpeta de scripts está bloqueado correctamente tanto para Googlebot como para Mediapartners-Google. Puedo ver que los dos robots están viendo la directiva correcta porque el robot de Google dice que los scripts están bloqueados desde la línea 7 mientras que Mediapartners-Google está bloqueado desde la línea 4. Y, sin embargo, CUALQUIER otra URL que ingresé de las URL no permitidas debajo del segundo usuario -la directiva de agente NO está bloqueada!
Me pregunto si mi comentario o el uso de URL absolutas están arruinando las cosas ...
Cualquier idea es apreciada. Gracias.
Solución
La razón por la que se ignoran es que tiene la URL totalmente calificada en el archivo robots.txt
para las entradas Disallow
mientras que especificación no lo permite. (Solo debe especificar rutas relativas o rutas absolutas con /). Pruebe lo siguiente:
Sitemap: /sitemap_index.xml
User-agent: Mediapartners-Google
Disallow: /scripts
User-agent: *
Disallow: /scripts
# list of articles given by the Content group
Disallow: /Living/books/book-review-not-stupid.aspx
Disallow: /Living/books/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
Disallow: /Living/sportsandrecreation/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
En cuanto al almacenamiento en caché, Google intenta obtener una copia del archivo robots.txt cada 24 horas en promedio.
Otros consejos
Son las URL absolutas. Solo se supone que robots.txt incluye URI relativos; el dominio se infiere en función del dominio desde el que se accedió al robots.txt.
Ha estado funcionando durante al menos una semana, y Google dice que se descargó por última vez hace 3 horas, así que estoy seguro de que es reciente.
¿Realizó recientemente este cambio en su archivo robots.txt? En mi experiencia, parece que Google almacena en caché esas cosas durante mucho tiempo.