Best practice per il servizio di recupero URL? Come evitare di essere un vettore di attacco?

StackOverflow https://stackoverflow.com/questions/600349

  •  03-07-2019
  •  | 
  •  

Domanda

Sto armeggiando con uno strumento web che, dato un URL, recupererà il testo e fornirà all'utente alcune statistiche sul contenuto.

Sono preoccupato che offrire agli utenti un modo per avviare una richiesta GET dalla mia casella a qualsiasi URL arbitrario in rete possa servire da vettore per gli attacchi (ad esempio http://undefended.box/broken- sw / admin? do_something_bad ).

Esistono modi per ridurre al minimo questo rischio? Qualche best practice nell'offrire capacità di recupero di URL pubblici?

Alcune idee a cui ho pensato:

  • onorare robots.txt
  • accettando o rifiutando solo determinati pattern URL
  • controllo della lista nera / lista bianca dei siti appropriati (se esiste una cosa del genere)
  • lavorando attraverso un noto proxy Web pubblico di terze parti, supponendo che abbiano già integrato queste garanzie

Grazie per il tuo aiuto.

Modifica: valuterà solo HTML o contenuto di testo, senza scaricare o valutare script, immagini, ecc. collegati. Se HTML, userò un parser HTML.

È stato utile?

Soluzione

Le statistiche saranno solo sul testo nel documento? Lo valuterai usando un parser HTML?

Se è solo il testo che si intende analizzare, ovvero senza scaricare ulteriori collegamenti, valutare script, ecc., il rischio è meno grave.

Probabilmente non sarebbe male passare ogni file scaricato attraverso un programma antivirus. Dovresti anche limitare i GET a determinati tipi di contenuto (ovvero non scaricare file binari; assicurati che sia una sorta di codifica del testo).

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top