Googlebot no respeta Robots.txt [cerrado]

https://stackoverflow.com/questions/463569

19-08-2019
|

Pregunta

Por alguna razón, cuando verifico en la Herramienta para webmasters de Google " Analizar robots.txt " para ver qué URL están bloqueadas por nuestro archivo robots.txt, no es lo que espero. Aquí hay un fragmento del principio de nuestro archivo:

Sitemap: http://[omitted]/sitemap_index.xml

User-agent: Mediapartners-Google
Disallow: /scripts

User-agent: *
Disallow: /scripts
# list of articles given by the Content group
Disallow: http://[omitted]/Living/books/book-review-not-stupid.aspx
Disallow: http://[omitted]/Living/books/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
Disallow: http://[omitted]/Living/sportsandrecreation/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx

Cualquier elemento de la carpeta de scripts está bloqueado correctamente tanto para Googlebot como para Mediapartners-Google. Puedo ver que los dos robots están viendo la directiva correcta porque el robot de Google dice que los scripts están bloqueados desde la línea 7 mientras que Mediapartners-Google está bloqueado desde la línea 4. Y, sin embargo, CUALQUIER otra URL que ingresé de las URL no permitidas debajo del segundo usuario -la directiva de agente NO está bloqueada!

Me pregunto si mi comentario o el uso de URL absolutas están arruinando las cosas ...

Cualquier idea es apreciada. Gracias.

Solución

La razón por la que se ignoran es que tiene la URL totalmente calificada en el archivo robots.txt para las entradas Disallow mientras que especificación no lo permite. (Solo debe especificar rutas relativas o rutas absolutas con /). Pruebe lo siguiente:

Sitemap: /sitemap_index.xml

User-agent: Mediapartners-Google
Disallow: /scripts

User-agent: *
Disallow: /scripts
# list of articles given by the Content group
Disallow: /Living/books/book-review-not-stupid.aspx
Disallow: /Living/books/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
Disallow: /Living/sportsandrecreation/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx

En cuanto al almacenamiento en caché, Google intenta obtener una copia del archivo robots.txt cada 24 horas en promedio.

Otros consejos

Son las URL absolutas. Solo se supone que robots.txt incluye URI relativos; el dominio se infiere en función del dominio desde el que se accedió al robots.txt.

Ha estado funcionando durante al menos una semana, y Google dice que se descargó por última vez hace 3 horas, así que estoy seguro de que es reciente.

¿Realizó recientemente este cambio en su archivo robots.txt? En mi experiencia, parece que Google almacena en caché esas cosas durante mucho tiempo.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow