عدم السماح بعنوان URL معين في robots.txt [مغلق

StackOverflow https://stackoverflow.com/questions/2848140

  •  27-09-2019
  •  | 
  •  

سؤال

قمنا بتنفيذ نظام تصنيف على موقع ما منذ فترة يتضمن رابطًا إلى البرنامج النصي. ومع ذلك ، مع الغالبية العظمى من التصنيفات على الموقع في 3/5 والتصنيفات حتى جدا عبر 1-5 بدأنا في الشك في أن زحف محرك البحث وما إلى ذلك. تبدو عناوين URL المستخدمة هكذا:

http://www.thesite.com/path/to/the/page/rate?uid=abcdefghijk&value=3

عندما بدأنا نضيف ما يلي إلى robots.txt لدينا:

User-agent: *
Disallow: /rate

هل هذا غير صحيح أم أن GoogleBot وآخرون يتجاهلون ببساطة robots.txt؟

هل كانت مفيدة؟

المحلول

يجب عليك استخدام POST للإجراءات التي تغير الأشياء كمحرك بحث عادة لا يقدم النماذج. بالإضافة إلى ذلك ، سيمنع هذا المستخدمين الذين يقومون بتنزيل موقع الويب الخاص بك بشكل متكرر (على سبيل المثال مع WGET) من تقديم الكثير من الأصوات.

اعتمادًا على موقعك ، قد يكون التعامل مع التصويت على الرغم من أن JavaScript قد يكون حلاً أيضًا.

بخصوص Robots.txt: يجب أن يكون في مسار الجذر - أي http://www.thesite.com/robots.txt - وإذا كان نظام التقييم الخاص بك في /بلاه /معدل تحتاج إلى استخدامه Disallow: /blah/rate بدلاً من Disallow: /rate

نصائح أخرى

تبدو غير صحيحة بالنسبة لي. أنت فقط لا تسمى الوصول إلى http://www.thesite.com/rate (والصفحات أدناه IIRC). بالإضافة إلى تجاهل بعض الزحف robots.txt!

من الأفضل أن تجعلها لا يتم تغيير التصنيفات إلا استجابةً للنشر ، بدلاً من الحصول عليها. محركات البحث مطلقا استخدم المنشور.

User-agent: *
Disallow: /path/to/the/page/rate

عليك استخدام المسار الكامل.

قد ترغب في القراءة هنا قليلاً: http://www.javaScriptKit.com/howto/robots.shtml

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top