Предотвращение обхода и копирования данных сайта

StackOverflow https://stackoverflow.com/questions/177479

  •  05-07-2019
  •  | 
  •  

Вопрос

Я рассматриваю возможность создания сайта с контентом, возможно, с тысячами различных записей, доступных по индексу и с помощью поиска.

Какие меры я могу предпринять, чтобы предотвратить вредоносные сканеры из-за удаления всех данных с моего сайта?Я меньше беспокоюсь о SEO, хотя я бы не хотел блокировать все законные поисковые системы вместе взятые.

Например, я думал о случайном изменении небольших фрагментов HTML-структуры, используемой для отображения моих данных, но, думаю, на самом деле это было бы неэффективно.

Это было полезно?

Решение

Любой сайт, который он видит человеческим глазом, теоретически может быть взломан. Если вы даже пытаетесь быть доступными, то это, по определению, должно иметь место (как иначе говорящие браузеры смогут доставлять ваш контент, если он не читается машиной).

Лучше всего смотреть на водяные знаки на вашем контенте, чтобы, по крайней мере, если он был разорван, вы могли указать на водяные знаки и заявить о праве собственности.

Другие советы

Между этим:

  

Какие меры я могу предпринять, чтобы предотвратить взлом вредоносных сканеров

и это:

  

Я бы не хотел блокировать легальные сканеры все вместе.

ты много просишь. На самом деле, если вы попытаетесь заблокировать вредоносные скребки, вы в конечном итоге заблокируете все «хорошие» запросы. сканеры тоже.

Вы должны помнить, что если люди хотят очистить ваш контент, они приложат гораздо больше усилий, чем робот поисковой машины ... Так что расставьте приоритеты правильно. У вас есть два варианта:

<Ол>
  • Пусть крестьяне Интернета украдут ваш контент. Следите за этим (ищите в Google некоторые из ваших более уникальных фраз) и отправляйте запросы на разборку провайдерам. Этот выбор практически не влияет на вас, кроме времени.
  • Используйте AJAX и скользящее шифрование для запроса всего вашего контента с сервера. Вам нужно будет оставить метод изменяющимся или даже случайным, чтобы каждая загрузка страницы несла свою схему шифрования. Но даже этот будет взломан, если кто-то захочет его взломать. Вы также бросите вызов поисковым системам и, следовательно, получите удар по трафику реальных пользователей.
  • Хорошие сканеры будут следовать правилам, указанным в robots.txt, а вредоносные - нет. Вы можете настроить " ловушку " для плохих роботов, как это объясняется здесь: http://www.fleiner.com/bots/ .
    Но опять же, если вы разместите свой контент в Интернете, я думаю, что для всех будет лучше, если его найти как можно более безболезненно (на самом деле, вы публикуете здесь, а не на каком-то неубедительном форуме, где эксперты обмениваются их мнения)

    На самом деле вы не можете остановить вредоносных сканеров - и любые меры, которые вы предпримете, чтобы предотвратить их, могут нанести вред вашим законным пользователям (за исключением, возможно, добавления записей в robots.txt, чтобы разрешить обнаружение)

    Итак, вам нужно спланировать кражу контента - это, скорее всего, произойдет в той или иной форме - и понять, как вы будете бороться с несанкционированным копированием.

    Профилактика невозможна, и попытка сделать это будет пустой тратой времени.

    Единственный надежный способ убедиться, что содержимое веб-сайта не подвержено копированию, - это отключить сетевой кабель ...

    Чтобы обнаружить его, используйте что-то вроде http://www.copyscape.com/ . р>

    Даже не пытайтесь устанавливать ограничения в Интернете!

    Это действительно так просто.

    Любая потенциальная мера, препятствующая копированию (кроме очень строгого robots.txt), будет вредить вашим пользователям. Капчи - скорее боль, чем выгода. Проверка пользовательского агента отключает неожиданные браузеры. То же самое относится и к «умному» трюки с JavaScript.

    Пожалуйста, оставляйте Интернет открытым. Если вы не хотите, чтобы что-то было взято с вашего сайта, не публикуйте его там. Водяные знаки могут помочь вам претендовать на право собственности, но это помогает, только если вы хотите подать в суд после причинения вреда.

    Единственный способ остановить машинное копирование сайта - это заставить пользователя доказать, что он человек.

    Вы могли бы заставить пользователей выполнять задачу, которая легка для людей и сложна для машин, например:КАПЧА.Когда пользователь впервые попадает на ваш сайт, вводите КАПЧУ и разрешайте ему перейти только после ее завершения.Если пользователь начинает переходить со страницы на страницу слишком быстро, повторите проверку.

    Это не на 100% эффективно, и хакеры всегда пытаются их взломать.

    В качестве альтернативы вы могли бы давать медленные ответы.Вам не нужно заставлять их ползти, но выберите скорость, приемлемую для человека (для машины это было бы очень медленно).Это просто заставляет их тратить больше времени на очистку вашего сайта, но не делает это невозможным.

    ОК.Закончились идеи.

    Короче говоря: вы не можете предотвратить разрыв. Вредоносные боты обычно используют пользовательские агенты IE и в настоящее время достаточно умны. Если вы хотите, чтобы ваш сайт был доступен для максимального количества (например, программ чтения с экрана и т. Д.), Вы не можете использовать javascript или один из популярных плагинов (flash) просто потому, что они могут запретить доступ законного пользователя.

    Возможно, у вас может быть задание cron, которое выбирает случайный фрагмент из вашей базы данных и находит его в поисках совпадений. Затем вы можете попытаться завладеть оскорбительным сайтом и потребовать, чтобы они удалили контент.

    Вы также можете отслеживать количество запросов с данного IP-адреса и блокировать его, если он превышает пороговое значение, хотя вам, возможно, придется занести в белый список допустимых ботов и бесполезно использовать ботнет (но если вы против ботнета, возможно, копирование не является вашей самой большой проблемой).

    Если вы делаете публичный сайт, то это очень сложно. Существуют методы, которые включают сценарии на стороне сервера для генерации контента или использование нетекстовых (Flash и т. Д.) Для минимизации вероятности копирования.

    Но, если честно, если вы считаете, что ваш контент настолько хорош, просто защитите его паролем и удалите из публичной арены.

    Мое мнение таково, что весь смысл Интернета заключается в том, чтобы распространять полезный контент как можно большему количеству людей.

    Если содержимое является общедоступным и свободно доступным, даже при ограниченном просмотре страниц и т. д., вы ничего не можете сделать. Если вам требуется регистрация и / или оплата для доступа к данным, вы можете немного их ограничить, и, по крайней мере, вы можете видеть, кто что читает, и идентифицировать пользователей, которые, похоже, очищают всю вашу базу данных.

    Тем не менее, я думаю, что вам следует принять во внимание тот факт, что именно так работает сеть, существует не так много способов помешать машине читать то, что может человек. Вывод всего вашего контента в виде изображений, конечно, обескуражил бы больше всего, но тогда сайт больше не доступен, не говоря уже о том факте, что даже пользователи, не являющиеся инвалидами, не смогут копировать и вставлять что-либо - что может быть действительно раздражающим.

    В целом это звучит как DRM / системы защиты игр - бесит ваших законных пользователей только для того, чтобы предотвратить какое-то плохое поведение, которое вы все равно не можете предотвратить.

    Вы можете попробовать использовать Flash / Silverlight / Java для отображения всего содержимого вашей страницы. Это, вероятно, остановит большинство сканеров на своем пути.

    Раньше у меня была система, которая блокировала или разрешала на основе заголовка User-Agent. Он полагается на настройку сканера своего User-Agent, но, похоже, большинство из них.

    Конечно, это не сработает, если они используют поддельный заголовок для эмуляции популярного браузера.

    Используйте, где только возможно, человеческие валидаторы и попробуйте использовать какой-нибудь фреймворк (MVC).Программное обеспечение для копирования сайтов иногда не может скопировать страницу такого типа.Также обнаружьте пользовательский агент, по крайней мере, это уменьшит количество возможных потрошителей

    Лицензировано под: CC-BY-SA с атрибуция
    Не связан с StackOverflow
    scroll top