تحليل ملف HTML مع SelectorGadget.com
-
09-09-2019 - |
سؤال
كيف يمكنني استخدام حساء جميل و selectategadget. لتخفيف موقع الويب. على سبيل المثال، لدي موقع ويب - (منتج NEWEGG) وأود أن أعود نصي إلى إرجاع جميع مواصفات هذا المنتج (انقر فوق المواصفات) عن طريق هذا يعني ذلك - Intel، Desktop، ......، 2.4 جيجا هرتز، 1066 ميجا هرتز، ......، 3 سنوات محدود.
بعد استخدام selectorgadget أحصل على السلسلة .DESC
كيف يمكنني استخدام هذا؟
شكرا :)
المحلول
فحص الصفحة، أستطيع أن أرى أن المواصفات يتم وضعها في DIV مع معرف PCRASPECS:
<div id="pcraSpecs">
<script type="text/javascript">...</script>
<TABLE cellpadding="0" cellspacing="0" class="specification">
<TR>
<TD colspan="2" class="title">Model</TD>
</TR>
<TR>
<TD class="name">Brand</TD>
<TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Intel'));</script></TD>
</TR>
<TR>
<TD class="name">Processors Type</TD>
<TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Desktop'));</script></TD>
</TR>
...
</TABLE>
</div>
DESC هي فئة خلايا الطاولة.
ما تريد القيام به هو استخراج محتويات هذا الجدول.
soup.find(id="pcraSpecs").findAll("td")
يجب أن تبدأ.
نصائح أخرى
هل حاولت استخدام الاغرفة - http://feedity.com. لإنشاء تغذية RSS مخصصة من أي صفحة ويب.
لا تنتمي إلى StackOverflow