selectorgadget.comでHTMLファイルを解析

https://stackoverflow.com/questions/592910

09-09-2019
|

質問

どのようにウェブサイトをこすり取る際には、美しいスープと selectorgadget に使用することができます。（Neweggが製品）とI - たとえば、私は、ウェブサイトを持っていますその製品の仕様のすべてを返すために私のスクリプトをしたいと思い、私が意味する、このことにより、（仕様をクリックしてください） - インテル、デスクトップ、......、2.4GHz帯、1066MHzの、......、3年間限定。

selectorgadgetを使用した後、私はのstring-を取得します .desc

どのように私はこれを使用していますか？

ありがとう：）

解決

のページを点検、私は仕様をID pcraSpecsでdivの中に配置されていることを見ることができます：

<div id="pcraSpecs">
  <script type="text/javascript">...</script>
  <TABLE cellpadding="0" cellspacing="0" class="specification">
    <TR>
      <TD colspan="2" class="title">Model</TD>
    </TR>
    <TR>
      <TD class="name">Brand</TD>
      <TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Intel'));</script></TD>
    </TR>
    <TR>
      <TD class="name">Processors Type</TD>
      <TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Desktop'));</script></TD>    
    </TR>
    ...
  </TABLE>
</div>

DESCは、表のセルのクラスである。

何がやりたいことは、この表の内容を抽出することである。

soup.find(id="pcraSpecs").findAll("td")あなたが始める必要があります。

他のヒント

任意のWebページからカスタムRSSフィードを作成するための http://feedity.comする -

あなたはFeedityを使用してみました。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow