impedire che certi url nella robots.txt [chiusa]

https://stackoverflow.com/questions/2848140

robots.txt

27-09-2019
|

Domanda

Abbiamo implementato un sistema di rating su un sito un po 'indietro che coinvolge un link ad uno script. Tuttavia, con la stragrande maggioranza dei rating sul sito al 3/5 e i feedback molto uniforme in tutta 1-5 stiamo cominciando a sospettare che i crawler dei motori di ricerca, ecc sono sempre attraverso. Gli URL apparire come questo mezzo:

http://www.thesite.com/path/to/the/page/rate?uid=abcdefghijk&value=3

Quando abbiamo iniziato aggiungiamo la seguente al nostro robots.txt:

User-agent: *
Disallow: /rate

È questo corretto o sono Googlebot e altri semplicemente ignorando il nostro robots.txt?

Soluzione

Si dovrebbe usare POST per le azioni che cambiano le cose come motore di ricerca di solito non presentano forme. Inoltre, questo impedirà agli utenti che scaricano il tuo sito web in modo ricorsivo (ad esempio con wget) dal presentare tonnellate di voti.

A seconda del sito, la manipolazione di voto anche se javascript potrebbe essere una soluzione, anche.

Per quanto riguarda il tuo robots.txt: Deve essere nel percorso principale - ossia http://www.thesite.com/robots.txt - e se il vostro sistema di rating è a / bla / frequenza è necessario utilizzare al posto di Disallow: /blah/rate Disallow: /rate

Altri suggerimenti

Sembra non corretto per me. Stai non consentire l'accesso solo ai http://www.thesite.com/rate (e le pagine di sotto di esso IIRC). Oltre ad alcuni crawler ignorano robots.txt!

Meglio fare in modo che i rating sono sempre e solo alterate in risposta ad un post, piuttosto che un GET. I motori di ricerca non uso POST.

User-agent: *
Disallow: /path/to/the/page/rate

Si deve utilizzare il percorso completo.

potrebbe desiderare di leggere qui un po ': http://www.javascriptkit.com/ howto / robots.shtml

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow