Pregunta

He estado pensando durante un tiempo en no permitir a todos los rastreadores, excepto Ask, Google, Microsoft y Yahoo! de mi sitio.

El razonamiento detrás de esto es que nunca he visto ningún tráfico generado por ninguno de los otros rastreadores web.

Mis preguntas son:

  1. ¿Hay alguna razón para no hacerlo?
  2. ¿Alguien ha hecho esto?
  3. ¿Notaste algún efecto negativo?

Actualización:
Hasta ahora utilicé el enfoque de la lista negra: si no me gusta el rastreador, los agrego a la lista de rechazos.
Sin embargo, no soy fanático de las listas negras, ya que esta es una historia interminable: siempre hay más rastreadores por ahí.

No estoy tan preocupado por los rastreadores reales que se portan mal, se detectan y bloquean automáticamente. (y normalmente no solicitan robots.txt de todos modos :)

Sin embargo, muchos rastreadores no se comportan realmente mal de ninguna manera, simplemente no parecen generar ningún valor para mí o mis clientes.
Por ejemplo, hay un par de rastreadores que impulsan el sitio web y afirman que serán The Next Google; Solo mejor. Nunca he visto ningún tráfico proveniente de ellos y soy bastante escéptico acerca de que sean mejores que cualquiera de los cuatro motores de búsqueda mencionados anteriormente.

Actualización 2:
He estado analizando el tráfico a varios sitios desde hace algún tiempo, y parece que para sitios pequeños razonables, 100 visitantes humanos únicos por día (= visitantes que no puedo identificar como no humanos). Alrededor del 52% del tráfico generado es por procesos automatizados.

El 60% de todos los visitantes automatizados no está leyendo el archivo robots.txt, el 40% (21% del tráfico total) solicita el archivo robots.txt. (esto incluye Ask, Google, Microsoft y Yahoo!)

Entonces, mi opinión es que si bloqueo todos los rastreadores que se comportan bien y que no parecen generar ningún valor para mí, podría reducir el uso de ancho de banda y la carga del servidor en un 12% - 17%.

¿Fue útil?

Solución

Internet es un mecanismo de publicación . Si desea incluir su sitio en la lista blanca, está en contra, pero está bien.

¿Quiere incluir en la lista blanca su sitio?

Tenga en cuenta que los bots que se portan mal y que ignoran el archivo robots.txt no se ven afectados de ninguna manera (obviamente), y los bots que se comportan bien probablemente estén allí por una buena razón, es solo que eso es opaco para usted.

Otros consejos

Si bien es posible que otros sitios que rastrean sus sitios no envíen ningún contenido a su manera, es posible que ellos mismos estén siendo indexados por Google et al, y por lo tanto, agregar a su rango de página, bloquearlos desde su sitio podría afectar esto.

  

¿Hay alguna razón para no hacerlo?

¿Desea quedarse fuera de algo que podría incluir su sitio del que no tiene conocimiento y que indirectamente le trae mucho contenido?

Si algunos rastreadores extraños están martillando su sitio y comiendo su ancho de banda, es posible que desee, pero es muy posible que tales rastreadores no & # 8217; tampoco cumplan con su robots.txt.

Examine sus archivos de registro y vea qué rastreadores tiene y qué proporción de su ancho de banda están comiendo. Puede haber formas más directas de bloquear el tráfico que está bombardeando su sitio.

Esto es actualmente un poco incómodo, ya que no hay & # 8220; Permitir & # 8221; campo. La manera fácil es colocar todos los archivos para que no se permitan en un directorio separado, digamos & # 8220; stuff & # 8221 ;, y deje el único archivo en el nivel sobre este directorio.

Mi única preocupación es que puede perderse la próxima gran cosa.

Hubo un largo período en el que AltaVista fue el motor de búsqueda. Posiblemente incluso más de lo que Google es ahora. (no había bing, o Ask, y Yahoo era un directorio, en lugar de un motor de búsqueda como tal). Los sitios que bloquearon todos menos Altavista en ese entonces nunca habrían visto el tráfico de Google, y por lo tanto nunca sabían cuán popular se estaba volviendo, a menos que supieran de otra fuente, lo que podría haberlos puesto en una desventaja considerable por un tiempo.

Pagerank tiende a estar sesgado hacia sitios más antiguos. No desea aparecer más nuevo de lo que es porque estaba bloqueando el acceso a través de robots.txt sin ningún motivo. Estos tipos: http://www.dotnetdotcom.org/ pueden ser completamente inútiles ahora, pero tal vez en 5 años vez, el hecho de que no estuviera en su índice ahora contará en su contra en el próximo gran motor de búsqueda.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top