Analizar un archivo HTML con selectorgadget.com
-
09-09-2019 - |
Pregunta
¿Cómo puedo utilizar hermosa sopa y selectorgadget para raspar una página web. Por ejemplo, tengo una página web - (un producto Newegg) y yo le gustaría mi script para volver con todas las especificaciones de ese producto (Haga clic sobre las especificaciones) con esto quiero decir - Intel, escritorio, ......, 2,4 GHz, 1066 Mhz, ......, 3 años limitada.
Después de usar selectorgadget consigo el String .desc
¿Cómo uso esto?
Gracias:)
Solución
Inspección de la página, puedo ver que las especificaciones se colocan en un div con los pcraSpecs ID:
<div id="pcraSpecs">
<script type="text/javascript">...</script>
<TABLE cellpadding="0" cellspacing="0" class="specification">
<TR>
<TD colspan="2" class="title">Model</TD>
</TR>
<TR>
<TD class="name">Brand</TD>
<TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Intel'));</script></TD>
</TR>
<TR>
<TD class="name">Processors Type</TD>
<TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Desktop'));</script></TD>
</TR>
...
</TABLE>
</div>
desc es la clase de las celdas de la tabla.
Lo que se quiere hacer es extraer el contenido de esta tabla.
soup.find(id="pcraSpecs").findAll("td")
debe empezar.
Otros consejos
¿Ha intentado utilizar Feedity - http://feedity.com para la creación de una costumbre canal RSS de cualquier página web.