Parsen eine HTML-Datei mit selectorgadget.com

https://stackoverflow.com/questions/592910

09-09-2019
|

Frage

Wie kann ich schöne Suppe und selectorgadget eine Website kratzen. Zum Beispiel habe ich eine Website - (a newegg Produkt) und ich würde mein Skript wie alle Spezifikationen des Produkts (klicken Sie auf DATEN) damit meine ich zurückkehren - Intel, Desktop, ......, 2,4 GHz, 1066Mhz, ......, 3 Jahre begrenzt.

Nach selectorgadget mit erhalte ich die String- .Desc

Wie kann ich das?

Danke:)

Lösung

die Seite Inspizieren, ich kann sehen, dass die Spezifikationen in einem div mit der ID pcraSpecs gestellt werden:

<div id="pcraSpecs">
  <script type="text/javascript">...</script>
  <TABLE cellpadding="0" cellspacing="0" class="specification">
    <TR>
      <TD colspan="2" class="title">Model</TD>
    </TR>
    <TR>
      <TD class="name">Brand</TD>
      <TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Intel'));</script></TD>
    </TR>
    <TR>
      <TD class="name">Processors Type</TD>
      <TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Desktop'));</script></TD>    
    </TR>
    ...
  </TABLE>
</div>

desc ist die Klasse der Tabellenzellen.

Was Sie tun möchten, ist der Inhalt dieser Tabelle zu extrahieren.

soup.find(id="pcraSpecs").findAll("td") sollten Sie beginnen.

Andere Tipps

Haben Sie mit Feedity versucht - http://feedity.com für eine benutzerdefinierte RSS-Feed von einer beliebigen Webseite zu erstellen.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow