كيف أفعل لمنع خرافة الويب دون حظر روبوتات تصرفت بشكل جيد؟

https://stackoverflow.com/questions/587896

06-09-2019
|

سؤال

أنا أبني موقع التجارة الإلكترونية مع قاعدة بيانات كبيرة من المنتجات. بالطبع، هو لطيف عندما تقوم Goggle بفهرسة جميع منتجات الموقع. ولكن ماذا لو كان بعض المنافس يريد خردة الويب الموقع والحصول على جميع الصور وأوصاف المنتج؟

كنت أراقب بعض المواقع ذات قوائم مماثلة من المنتجات، وأنها تضع كلمة التحقق، لذلك "البشر فقط" يمكن قراءة قائمة المنتجات. العيب هو ... غير مرئي لجوجل أو ياهو أو آخر "تصرفت جيدا" الروبوتات.

المحلول

يمكنك اكتشاف عناوين IP تستخدم Google وغيرها من خلال التحقق من IPS الزائر مع Whois (في سطر الأوامر أو على موقع ويب). ثم، بمجرد أن تتراكم خبأ من محركات البحث الشرطية، اسمح لهم في قائمة منتجاتك دون كلمة التحقق.

نصائح أخرى

إذا كنت قلقا من المنافسين الذين يستخدمون النصوص أو صورك، فماذا عن علامة مائية أو نص مخصص؟

دعهم يأخذون صورك وكنت لديك شعارك على موقعهم!

نظرا لأن تطبيق Screen-Scaping المحتمل يمكن أن ساخرة وكيل المستخدم وإحالة HTTP (للصور) في الرأس واستخدام جدول زمني مشابه لمتصفح الإنسان، فمن غير الممكن إيقاف الكشافات المهنية تماما. ولكن يمكنك التحقق من هذه الأشياء ومع ذلك ومنع تجريف عارضة. أنا شخصيا أجد اختبار CAPTCHAS مزعج لأي شيء آخر غير التسجيل في موقع.

تقنية واحدة يمكنك المحاولة هي طريقة "وعاء العسل": يمكن القيام بذلك إما عن طريق ملفات تسجيل التعدين عبر بعض البرمجة النصية البسيطة.

العملية الأساسية هي تقوم ببناء "القائمة السوداء" الخاصة بك من مكشطة IPS بناء من خلال البحث عن عناوين IP التي تنظر إلى 2+ منتجات غير مرتبطة في فترة زمنية قصيرة جدا. الفرص هي هذه IPS تنتمي إلى الآلات. يمكنك بعد ذلك إجراء بحث عكسي عليها لتحديد ما إذا كانت لطيفة (مثل GoogleBot أو Slurp) أو سيئة.

Block Webscripters ليس بالأمر السهل، بل هو أصعب في محاولة تجنب الإيجابيات الخاطئة.

على أي حال، يمكنك إضافة بعض NetRange إلى Whitelist، ولا تخدم أي كلمة التحقق بها. كل تلك الزواحف المعروفة جيدا: Bing، GoogleBot، Yahoo وما إلى ذلك. استخدم دائما Netranges محددة عند الزحف، وجميع عناوين IP هذه العزم على البحث العكسي المحدد.

بعض الأمثلة:

غوغل IP 66.249.65.32 يحل إلى Crawl-66-249-65-32.googlebot.com

بينج IP 157.55.39.139 يحل إلى MSNBOT-157-55-39-139.Search.msn.com

ياهو. IP 74.6.254.109 يحل إلى H049.crawl.yahoo.net

لذلك دعونا نقول ذلك* .googlebot.com. ', '*. search.msn.com ' و '* .crawl.yahoo.net. يجب أن تكون العناوين مبتهجة.

هناك الكثير من القوائم البيضاء التي يمكنك تنفيذها على الإنترنت.

قال ذلك، لا أعتقد أن CAPTCHA هو حل ضد الكاشطات المتقدمة، لأن الخدمات مثل deathbycaptcha.com. أو 2captcha.com. وعد بحل أي نوع من captcha في غضون ثوان.

يرجى إلقاء نظرة على ويكي لدينا http://www.scrapesentry.com/scraping-wiki/ كتبنا العديد من المقالات حول كيفية منع واكتشاف وحظر كاشطات الويب.

ربما قمت بتبسيطها، ولكن إذا كان اهتمامك حول أداء الخادم، فسيؤدي توفير API إلى تقليل الحاجة إلى الكاشطات، وحفظ وقت المعالج الفرقة / العرض.

أفكار أخرى مدرجة هنا:

http://blog.screen-scraper.com/2009/08/17/further-ThAde-on-Screen-Scraping/

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow