selectorgadget.com으로 html 파일을 구문 분석합니다

https://stackoverflow.com/questions/592910

09-09-2019
|

문제

아름다운 수프를 어떻게 사용할 수 있습니까? SelectorGadget 웹 사이트를 긁어냅니다. 예를 들어 웹 사이트가 있습니다. (Newegg 제품) 그리고 나는 내 스크립트가 해당 제품의 모든 사양을 반환하기를 원합니다 (사양을 클릭하십시오)은 Intel, Desktop, ......, 2.4GHz, 1066MHz, ......, 3 년입니다. 제한된.

SelectorGadget을 사용한 후 String- .desc를 얻습니다

이것을 어떻게 사용합니까?

감사 :)

해결책

페이지를 검사하면 사양이 id pcraspecs와 함께 div에 배치되는 것을 볼 수 있습니다.

<div id="pcraSpecs">
  <script type="text/javascript">...</script>
  <TABLE cellpadding="0" cellspacing="0" class="specification">
    <TR>
      <TD colspan="2" class="title">Model</TD>
    </TR>
    <TR>
      <TD class="name">Brand</TD>
      <TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Intel'));</script></TD>
    </TR>
    <TR>
      <TD class="name">Processors Type</TD>
      <TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Desktop'));</script></TD>    
    </TR>
    ...
  </TABLE>
</div>

DESC는 표 셀의 클래스입니다.

당신이하고 싶은 것은이 테이블의 내용을 추출하는 것입니다.

soup.find(id="pcraSpecs").findAll("td") 당신을 시작해야합니다.

다른 팁

피드를 사용해 보셨습니까? http://feedity.com 모든 웹 페이지에서 사용자 정의 RSS 피드를 작성합니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow