Domanda

Come posso utilizzare bella zuppa e selectorgadget per raschiare un sito web. Per esempio io ho un sito web - (un prodotto Newegg) ed io vorrebbe il mio script di restituire tutte le specifiche di tale prodotto (clicca sulle specifiche) con questo intendo - Intel, desktop, ......, 2.4GHz, 1066Mhz, ......, 3 anni limitata.

Dopo aver usato selectorgadget ho la String .desc

Come si usa questo?

Grazie:)

È stato utile?

Soluzione

Controllo pagina, posso vedere che le specifiche sono collocati in un div con le pcraSpecs ID:

<div id="pcraSpecs">
  <script type="text/javascript">...</script>
  <TABLE cellpadding="0" cellspacing="0" class="specification">
    <TR>
      <TD colspan="2" class="title">Model</TD>
    </TR>
    <TR>
      <TD class="name">Brand</TD>
      <TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Intel'));</script></TD>
    </TR>
    <TR>
      <TD class="name">Processors Type</TD>
      <TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Desktop'));</script></TD>    
    </TR>
    ...
  </TABLE>
</div>

disc è la classe delle celle della tabella.

Che cosa si vuole fare è quello di estrarre il contenuto di questa tabella.

soup.find(id="pcraSpecs").findAll("td") dovrebbe iniziare.

Altri suggerimenti

Hai provato a usare Feedity - http://feedity.com per la creazione di un feed RSS personalizzato da qualsiasi pagina web.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top