Meilleures pratiques pour le service de récupération d'URL? Comment éviter d'être vecteur d'attaque?

https://stackoverflow.com/questions/600349

03-07-2019
|

Question

Je bricole un outil Web qui, à partir d'une URL, récupérera le texte et donnera à l'utilisateur des statistiques sur le contenu.

Je crains que donner aux utilisateurs un moyen de lancer une requête GET depuis ma boîte vers une URL arbitraire sur le réseau puisse servir de vecteur à des attaques (par exemple, < http://undefended.box/broken- sw / admin? do_something_bad ).

Existe-t-il des moyens de minimiser ce risque? Des bonnes pratiques pour offrir une capacité de récupération d’URL publique?

Quelques idées auxquelles j'ai pensé:

respectant robots.txt
accepter ou rejeter uniquement certains modèles d'URL
vérification de la liste noire / liste blanche des sites appropriés (le cas échéant)
en utilisant le proxy Web public d'un tiers bien connu, en supposant qu'il ait déjà intégré ces protections

Merci de votre aide.

Modifier: il s'agira d'évaluer uniquement le contenu HTML ou texte, sans télécharger ni évaluer les scripts, images, etc. liés. Si le format HTML, j'utilise un analyseur HTML.

La solution

Les statistiques seront-elles uniquement sur le texte du document? Allez-vous l'évaluer à l'aide d'un analyseur HTML?

S'il s'agit uniquement du texte que vous allez analyser, c'est-à-dire sans télécharger d'autres liens, évaluer des scripts, etc., le risque est alors moins grave.

Cela ne vous ferait probablement pas de mal de faire passer chaque fichier téléchargé par le biais d'un programme antivirus. Vous devez également restreindre les GET à certains types de contenu (par exemple, ne téléchargez pas de fichiers binaires, assurez-vous qu’il s’agit d’une sorte de codage de texte).

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow