robots.txt:No permitir a los robots para acceder a un determinado "url de la profundidad"

https://stackoverflow.com/questions/682863

22-08-2019
|

Pregunta

Tengo los enlaces con esta estructura:

http://www.example.com/tags/bla
http://www.example.com/tags/blubb
http://www.example.com/tags/bla/blubb (para todos los elementos que coincidan con los dos etiquetas)

Quiero que google & co spider todos los enlaces que tienen UNA etiqueta en la URL, pero NO la Url que tienen dos o más etiquetas.

Actualmente yo uso la etiqueta meta html "robots" -> "noindex, nofollow" para resolver el problema.

Hay un robots.txt solución (que funciona al menos para algunos la búsqueda de los robots) o tengo que seguir con "noindex, nofollow" y vivir con el tráfico adicional?

Solución

No creo que usted puede hacer uso de robots.txt. El estándar es bastante estrecha (sin comodines, debe estar en el nivel superior, etc.).

¿Qué acerca de desaprobando ellos basados en el agente de usuario en el servidor?

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow