proibir determinado URL em robots.txt [fechado]

https://stackoverflow.com/questions/2848140

robots.txt

27-09-2019
|

Pergunta

Há algum tempo, implementamos um sistema de classificação em um site que envolve um link para um script.No entanto, com a grande maioria das classificações do site em 3/5 e as classificações muito uniformes entre 1 e 5, começamos a suspeitar que rastreadores de mecanismos de pesquisa, etc.estão passando.Os URLs usados são assim:

http://www.thesite.com/path/to/the/page/rate?uid=abcdefghijk&value=3

Quando começamos, adicionamos o seguinte ao nosso robots.txt:

User-agent: *
Disallow: /rate

Isso está incorreto ou o Googlebot e outros estão simplesmente ignorando nosso robots.txt?

Solução

Você deve usar POST para ações que mudam as coisas, pois os mecanismos de pesquisa geralmente não enviam formulários.Além disso, isso impedirá que usuários baixem seu site recursivamente (por exemplo,com wget) de enviar toneladas de votos.

Dependendo do seu site, lidar com a votação por meio de javascript também pode ser uma solução.

Em relação ao seu robots.txt:Tem que estar no caminho raiz - ou seja, http://www.thesite.com/robots.txt - e se o seu sistema de classificação estiver em /blah/rate você precisa usar Disallow: /blah/rate em vez de Disallow: /rate

Outras dicas

Parece incorreto para mim.Você está apenas proibindo o acesso a http://www.thesite.com/rate (e páginas abaixo do IIRC).Além disso, alguns rastreadores ignoram robots.txt!

Melhor fazer com que as classificações sejam alteradas apenas em resposta a um POST, em vez de um GET.Mecanismos de busca nunca use POST.

User-agent: *
Disallow: /path/to/the/page/rate

Você tem que usar o caminho completo.

Talvez você queira ler um pouco aqui: http://www.javascriptkit.com/howto/robots.shtml

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow