عدم السماح بعنوان URL معين في robots.txt [مغلق

https://stackoverflow.com/questions/2848140

robots.txt

27-09-2019
|

سؤال

قمنا بتنفيذ نظام تصنيف على موقع ما منذ فترة يتضمن رابطًا إلى البرنامج النصي. ومع ذلك ، مع الغالبية العظمى من التصنيفات على الموقع في 3/5 والتصنيفات حتى جدا عبر 1-5 بدأنا في الشك في أن زحف محرك البحث وما إلى ذلك. تبدو عناوين URL المستخدمة هكذا:

http://www.thesite.com/path/to/the/page/rate?uid=abcdefghijk&value=3

عندما بدأنا نضيف ما يلي إلى robots.txt لدينا:

User-agent: *
Disallow: /rate

هل هذا غير صحيح أم أن GoogleBot وآخرون يتجاهلون ببساطة robots.txt؟

المحلول

يجب عليك استخدام POST للإجراءات التي تغير الأشياء كمحرك بحث عادة لا يقدم النماذج. بالإضافة إلى ذلك ، سيمنع هذا المستخدمين الذين يقومون بتنزيل موقع الويب الخاص بك بشكل متكرر (على سبيل المثال مع WGET) من تقديم الكثير من الأصوات.

اعتمادًا على موقعك ، قد يكون التعامل مع التصويت على الرغم من أن JavaScript قد يكون حلاً أيضًا.

بخصوص Robots.txt: يجب أن يكون في مسار الجذر - أي http://www.thesite.com/robots.txt - وإذا كان نظام التقييم الخاص بك في /بلاه /معدل تحتاج إلى استخدامه Disallow: /blah/rate بدلاً من Disallow: /rate

نصائح أخرى

تبدو غير صحيحة بالنسبة لي. أنت فقط لا تسمى الوصول إلى http://www.thesite.com/rate (والصفحات أدناه IIRC). بالإضافة إلى تجاهل بعض الزحف robots.txt!

من الأفضل أن تجعلها لا يتم تغيير التصنيفات إلا استجابةً للنشر ، بدلاً من الحصول عليها. محركات البحث مطلقا استخدم المنشور.

User-agent: *
Disallow: /path/to/the/page/rate

عليك استخدام المسار الكامل.

قد ترغب في القراءة هنا قليلاً: http://www.javaScriptKit.com/howto/robots.shtml

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow