عدم السماح بعنوان URL معين في robots.txt [مغلق
-
27-09-2019 - |
سؤال
قمنا بتنفيذ نظام تصنيف على موقع ما منذ فترة يتضمن رابطًا إلى البرنامج النصي. ومع ذلك ، مع الغالبية العظمى من التصنيفات على الموقع في 3/5 والتصنيفات حتى جدا عبر 1-5 بدأنا في الشك في أن زحف محرك البحث وما إلى ذلك. تبدو عناوين URL المستخدمة هكذا:
http://www.thesite.com/path/to/the/page/rate?uid=abcdefghijk&value=3
عندما بدأنا نضيف ما يلي إلى robots.txt لدينا:
User-agent: *
Disallow: /rate
هل هذا غير صحيح أم أن GoogleBot وآخرون يتجاهلون ببساطة robots.txt؟
المحلول
يجب عليك استخدام POST للإجراءات التي تغير الأشياء كمحرك بحث عادة لا يقدم النماذج. بالإضافة إلى ذلك ، سيمنع هذا المستخدمين الذين يقومون بتنزيل موقع الويب الخاص بك بشكل متكرر (على سبيل المثال مع WGET) من تقديم الكثير من الأصوات.
اعتمادًا على موقعك ، قد يكون التعامل مع التصويت على الرغم من أن JavaScript قد يكون حلاً أيضًا.
بخصوص Robots.txt: يجب أن يكون في مسار الجذر - أي http://www.thesite.com/robots.txt - وإذا كان نظام التقييم الخاص بك في /بلاه /معدل تحتاج إلى استخدامه Disallow: /blah/rate
بدلاً من Disallow: /rate
نصائح أخرى
تبدو غير صحيحة بالنسبة لي. أنت فقط لا تسمى الوصول إلى http://www.thesite.com/rate
(والصفحات أدناه IIRC). بالإضافة إلى تجاهل بعض الزحف robots.txt
!
من الأفضل أن تجعلها لا يتم تغيير التصنيفات إلا استجابةً للنشر ، بدلاً من الحصول عليها. محركات البحث مطلقا استخدم المنشور.
User-agent: *
Disallow: /path/to/the/page/rate
عليك استخدام المسار الكامل.
قد ترغب في القراءة هنا قليلاً: http://www.javaScriptKit.com/howto/robots.shtml