¿Mejores prácticas para el servicio de recuperación de URL? ¿Cómo evitar ser atacado vector?

https://stackoverflow.com/questions/600349

03-07-2019
|

Pregunta

Estoy jugando con una herramienta web que, dada una URL, recuperará el texto y le dará al usuario algunas estadísticas sobre el contenido.

Me preocupa que dar a los usuarios una forma de iniciar una solicitud GET desde mi casilla a cualquier URL arbitraria en la red pueda servir como un vector para ataques (por ejemplo, a http://undefended.box/broken- sw / admin? do_something_bad ).

¿Hay formas de minimizar este riesgo? ¿Alguna de las mejores prácticas al ofrecer capacidad de recuperación de URL pública?

Algunas ideas que he pensado:

en honor a robots.txt
aceptar o rechazar solo ciertos patrones de URL
revisar la lista negra / lista blanca de sitios apropiados (si existe tal cosa)
trabajando a través de un proxy web público conocido de un tercero, en el supuesto de que ya han incorporado estas salvaguardas

Gracias por tu ayuda.

Editar: evaluará solo contenido HTML o de texto, sin descargar ni evaluar scripts vinculados, imágenes, etc. Si es HTML, usaré un analizador HTML.

Solución

¿Las estadísticas serán solo sobre el texto del documento? ¿Lo evaluará utilizando un analizador HTML?

Si solo va a analizar el texto, es decir, sin descargar más enlaces, evaluar scripts, etc., el riesgo es menos grave.

Probablemente no estaría mal pasar cada archivo que descargue a través de un programa antivirus. También debe restringir los GET a ciertos tipos de contenido (es decir, no descargar archivos binarios; asegúrese de que sea algún tipo de codificación de texto).

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow