L'analisi di un file HTML con selectorgadget.com
-
09-09-2019 - |
Domanda
Come posso utilizzare bella zuppa e selectorgadget per raschiare un sito web. Per esempio io ho un sito web - (un prodotto Newegg) ed io vorrebbe il mio script di restituire tutte le specifiche di tale prodotto (clicca sulle specifiche) con questo intendo - Intel, desktop, ......, 2.4GHz, 1066Mhz, ......, 3 anni limitata.
Dopo aver usato selectorgadget ho la String .desc
Come si usa questo?
Grazie:)
Soluzione
Controllo pagina, posso vedere che le specifiche sono collocati in un div con le pcraSpecs ID:
<div id="pcraSpecs">
<script type="text/javascript">...</script>
<TABLE cellpadding="0" cellspacing="0" class="specification">
<TR>
<TD colspan="2" class="title">Model</TD>
</TR>
<TR>
<TD class="name">Brand</TD>
<TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Intel'));</script></TD>
</TR>
<TR>
<TD class="name">Processors Type</TD>
<TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Desktop'));</script></TD>
</TR>
...
</TABLE>
</div>
disc è la classe delle celle della tabella.
Che cosa si vuole fare è quello di estrarre il contenuto di questa tabella.
soup.find(id="pcraSpecs").findAll("td")
dovrebbe iniziare.
Altri suggerimenti
Hai provato a usare Feedity - http://feedity.com per la creazione di un feed RSS personalizzato da qualsiasi pagina web.