Frage

  

Mögliche Duplizieren:
  Scraping Bildschirm von einer Webseite mit vielen Javascript

Ich will nur Aufgaben tun wie Formulareingabe und Web-Scraping, sondern auf Websites, die Javascript-Unterstützung erfordern. Und ich muss auch Formulare eingeben, kratzen, und so weiter in der gleichen Sitzung. Im Idealfall würde ich einen Weg, wie ein Web-Browser über die Befehlszeile zu steuern. Und ich will auch nur Linux verwenden, für all dies, so kann ich nicht .NET verwenden.

Ich fand die Web-Browser-Bibliothek für Python, aber seine Fähigkeiten aussehen sehr begrenzt. Wenn das mit mechanize und BeautifulSoup Schnittstelle könnte, würde erstaunlich sein. Irgendwelche Vorschläge? Dank!

War es hilfreich?

Lösung

Sie könnten sicherlich eine XUL-Anwendung mit Mozilla schreiben (führen Sie es mit Firefox, Xulrunner usw.), die Skripte einen Web-Browser. Javascript ist in der Regel für solche Aufgaben verwendet wird.

Was ich gefunden habe, ist heikel ist, alle Arten von Dialogboxen unterdrücken, die der Browser sonst schaffen würde - man muss effektiv das Verhalten der XPCOM Serverklassen außer Kraft setzen, die für jede Art von Dialog aufgerufen werden, und es gibt eine viele unterschiedlichen (zum Beispiel, wenn Ihre Website entscheidet, auf eine hTTPS-Site mit einem abgelaufenen Zertifikat umgeleitet werden).

Natürlich sollten Sie nicht einen solchen Mechanismus verwenden, indem Roboter jeder Website-Politik auf den Einsatz zu verletzen. Normalerweise sollten Sie nie ein Formular mit einem Roboter vor.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top