Parsen eine HTML-Datei mit selectorgadget.com
-
09-09-2019 - |
Frage
Wie kann ich schöne Suppe und selectorgadget eine Website kratzen. Zum Beispiel habe ich eine Website - (a newegg Produkt) und ich würde mein Skript wie alle Spezifikationen des Produkts (klicken Sie auf DATEN) damit meine ich zurückkehren - Intel, Desktop, ......, 2,4 GHz, 1066Mhz, ......, 3 Jahre begrenzt.
Nach selectorgadget mit erhalte ich die String- .Desc
Wie kann ich das?
Danke:)
Lösung
die Seite Inspizieren, ich kann sehen, dass die Spezifikationen in einem div mit der ID pcraSpecs gestellt werden:
<div id="pcraSpecs">
<script type="text/javascript">...</script>
<TABLE cellpadding="0" cellspacing="0" class="specification">
<TR>
<TD colspan="2" class="title">Model</TD>
</TR>
<TR>
<TD class="name">Brand</TD>
<TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Intel'));</script></TD>
</TR>
<TR>
<TD class="name">Processors Type</TD>
<TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Desktop'));</script></TD>
</TR>
...
</TABLE>
</div>
desc ist die Klasse der Tabellenzellen.
Was Sie tun möchten, ist der Inhalt dieser Tabelle zu extrahieren.
soup.find(id="pcraSpecs").findAll("td")
sollten Sie beginnen.
Andere Tipps
Haben Sie mit Feedity versucht - http://feedity.com für eine benutzerdefinierte RSS-Feed von einer beliebigen Webseite zu erstellen.