proibir determinado URL em robots.txt [fechado]
-
27-09-2019 - |
Pergunta
Há algum tempo, implementamos um sistema de classificação em um site que envolve um link para um script.No entanto, com a grande maioria das classificações do site em 3/5 e as classificações muito uniformes entre 1 e 5, começamos a suspeitar que rastreadores de mecanismos de pesquisa, etc.estão passando.Os URLs usados são assim:
http://www.thesite.com/path/to/the/page/rate?uid=abcdefghijk&value=3
Quando começamos, adicionamos o seguinte ao nosso robots.txt:
User-agent: *
Disallow: /rate
Isso está incorreto ou o Googlebot e outros estão simplesmente ignorando nosso robots.txt?
Solução
Você deve usar POST para ações que mudam as coisas, pois os mecanismos de pesquisa geralmente não enviam formulários.Além disso, isso impedirá que usuários baixem seu site recursivamente (por exemplo,com wget) de enviar toneladas de votos.
Dependendo do seu site, lidar com a votação por meio de javascript também pode ser uma solução.
Em relação ao seu robots.txt:Tem que estar no caminho raiz - ou seja, http://www.thesite.com/robots.txt - e se o seu sistema de classificação estiver em /blah/rate você precisa usar Disallow: /blah/rate
em vez de Disallow: /rate
Outras dicas
Parece incorreto para mim.Você está apenas proibindo o acesso a http://www.thesite.com/rate
(e páginas abaixo do IIRC).Além disso, alguns rastreadores ignoram robots.txt
!
Melhor fazer com que as classificações sejam alteradas apenas em resposta a um POST, em vez de um GET.Mecanismos de busca nunca use POST.
User-agent: *
Disallow: /path/to/the/page/rate
Você tem que usar o caminho completo.
Talvez você queira ler um pouco aqui: http://www.javascriptkit.com/howto/robots.shtml